알고리즘이 기사 작성을 대신하다
로봇 저널리즘 (Robot Journalism)
글 이성규 블로터 기자
의견62
보내기폰트설정 메뉴
1로봇이 기사 쓰는 시대, 현실로
‘기레기’(기자+쓰레기)라는 비아냥 섞인 단어가 난무한다. 많은 수의 기사가 정형화된 틀, 식상한 공식에 맞춰 이른바 ‘복붙’(복사하기-붙이기)이 반복된 흔적이 농후해진 탓이다. 이를 두고 이용자들은 로봇 같다고 힐난한다.
로봇이 기사를 쓴 것으로 착각했다는 조롱도 튀어나온다. 인간이 썼을까, 로봇이 썼을까 헷갈린다고도 한다. 정말 로봇이 기사를 쓴다면 지금보다는 나을까? 어쩌면 더 나을지도 모른다. 현재의 기술 수준이라면 가능할 듯도 하다. 정밀한 알고리즘의 힘을 빌린다면 말이다.
확대보기
로봇이 펜으로 직접 기사를 쓸 날도 멀지 않았다.
로봇 저널리즘은 미국 언론계에선 낯설지 않다. ‘LA타임스’, ‘로이터’ 등은 속보 기사의 일부를 로봇으로 대체했다. 단문 몇 단락 수준이긴 하지만 데이터에 기반해 정확한 기사를 작성해낸다.
일부 기업은 장문 기사를 작성하는 수준까지 완성도를 높였다. 논조에 따라 단어를 자동으로 교체하기도 하고 동일 단어가 반복돼 쓰이는 걸 막기 위해 유사 단어 대체 기능까지 지원한다. 알고리즘 고도화, 컴퓨팅 기술의 파워가 이러한 현실을 만들어냈다.
2소프트웨어 활용한 기사 작성 방식
로봇 저널리즘은 다양한 이름으로 불리고 있다. 기사 제작 알고리즘에 주목, 알고리즘 책임 보도, 알고리즘 저널리즘으로 명명되기도 하고 ‘컴퓨테이셔널 저널리즘’(Computational Journalism), ‘데이터 저널리즘’(Data Journalism)으로 묶어서 호명하는 이들도 적지 않다.
컴퓨터 과학과 저널리즘이 조우하면서 혼란스럽게 명명되는 흐름들이 지속되고 있지만 대체로 로봇 저널리즘이라는 표현으로 수렴해가는 듯하다.
로봇 저널리즘은 엄격하게 정의하면 컴퓨팅 기술에 기초해 소프트웨어를 활용하는 기사 작성 방식을 의미한다.
물리적 실체로서 로봇이 리포팅을 대신하는 개념은 아니다. 정의된 문제를 해결해가는 일련의 알고리즘이 기사 작성에 직접 개입하는 형식을 두고 로봇 저널리즘이라고 부른다.
로봇 저널리즘의 역사를 살피기 위해서는 약 40년 전인 1977년으로 거슬러 올라가야 한다.
1977년 미국 캘리포니아대학교 정보컴퓨터과학과 제임스 미한 교수는 ‘테일스핀’(Tale Spin)이라는 이야기 자동 제작 프로그램에 대한 논문을 발표했다. 제목은 ‘테일스핀, 이야기를 쓰는 인터렉티브 프로그램’이었다.
제임스 미한 교수는 문제 기반 스토리텔링의 원리를 최초로 프로그램으로 검증하려 했던 인물이다. 논문에도 명시돼 있지만 테일스핀은 이야기를 제작하는 데 어떤 종류의 지식과 정보가 필요한지 밝혀내는 데 목적을 두고 있었다.
이를 위해 실제 컴퓨터 프로그램을 만들었고 그 결과물도 공개했다. 하지만 그가 개발한 프로그램이 기사 작성에도 활용될 수 있을 것이라고 생각하는 이는 드물었다.
최근 로봇 저널리즘이 세간의 이목을 받게 된 데엔 스타트업 내러티브사이언스의 공이 컸다. 내러티브사이언스는 미국 노스웨스턴대 지능정보랩의 학술 프로젝트 ‘스태츠몽키’(StatsMonkey)에서 시작됐다.
스태츠몽키는 스포츠 게임 데이터를 수집해 자동으로 기사를 완성하는 프로그램이다. 이 프로젝트에 참여한 연구진들이 뭉쳐 노스웨스턴대로부터 관련 특허와 라이선스를 획득한 뒤 내러티브사이언스라는 회사를 2010년 창업하게 된다.
3‘LA타임스’, LA 지진 기사 컴퓨터가 작성토록
확대보기
로봇이 작성한 LA 타임스 기사. 기사 하단에 알고리즘이 작성했다고 명시해두고 있다. <출처: LA 타임스 화면 캡처>
로봇 저널리즘을 활발하게 적용하고 있는 언론사로는 ‘LA타임스’를 꼽는다.
올해 3월 LA 지역에서 발생한 지진 속보를 알고리즘으로 가장 빨리 전달해 주목을 받았다. 당시 보도 과정을 재구성해보면 다음과 같다.
오전 6시 25분. LA에 강도 4.4의 지진이 발생한다. USGS는 즉각 지진 관련 데이터를 수집해 경고를 발령하고 동시에 정형화된 데이터를 API를 통해 제공한다. 지진 발생 데이터가 도착하자마자 ‘LA타임스’ 담당 기자에게는 e메일과 함께 메시지가 도착한다.
“지진 발생 기사의 발행 준비가 완료됐습니다”
기자는 침대에서 일어나 먼저 컴퓨터를 켰다. 간단히 팩트를 크로스 체크한 뒤 콘텐츠관리시스템(CMS)에서 ‘퍼블리싱’ 단추를 누른다. 그리고 한편의 기사가 온라인에 게재된다. 제목은 이랬다.
‘Earthquake aftershock: 2.7 quake strikes near Westwood’
이 모든 작업이 완료되기까지 걸린 시간은 불과 8분. ‘LA타임스’는 미국 서부 언론사 가운데 가장 빨리 지진 발생을 속보로 내보내는 데 성공했다.
속보를 발송하기까지 기자가 개입한 작업은 사실을 확인하고 ‘퍼블리싱’ 단추를 누른 것이 전부였다. 데이터에 대한 무한 신뢰가 전제된다면 속보 발송 시간은 이보다 더 당길 수 있었다.
‘퀘이크봇’(Quakebot)은 ‘LA타임스’의 개발자 슈벤크가 개발한 컴퓨테이셔널 기사 작성 알고리즘 가운데 지진 기사를 담당하는 로봇의 명칭이다. 퀘이크봇은 진도 3.0 이상의 지진이 발생하면 자동으로 작동한다.
API를 통해 전달된 데이터로 기사를 작성하고 CMS에 등록한다. 스트레이트 기사의 기본 문장 구조가 규격화돼 있기에 적절한 위치에 정확한 데이터만 배치하면 간단한 발문이 생성되는 방식이다. 제목도 동시에 추출된다.
4로봇 기사 작성의 5단계
확대보기
내러티브 사이언스의 기사 작성 로봇 ‘퀼’ <출처: 내러티브사이언스 화면 캡처>
‘LA타임스’의 기사 작성 로봇은 로봇 저널리즘 기술의 1단계 수준이다. ‘데이터 수집→구조화된 문장에 데이터 배치→온라인 퍼블리싱’의 비교적 단순한 작업 흐름을 갖고 있다. 하지만 내러티브사이언스는 한층 고도화된 스토리텔링 기술을 개발해 편집국으로 침투해 들어가고 있다.
이들이 개발한 컴퓨테이셔널 스토리텔링 솔루션 ‘퀼‘(Quill)은 데이터마이닝을 거쳐 인공 지능 알고리즘에 의한 구조화, 분석, 해석, 조직화, 작성에 이르는 과정을 모두 기계가 대처하는 수준에 이르렀다.
콜럼비아대학교 토우센터 자료에 따르면 일반적으로 로봇 기사 작성 기술은 5가지 단계로 구성된다. 첫 번째는 데이터를 수집, 분석하는 단계이다. 로봇 저널리즘은 주로 표준화된 데이터가 풍부한 영역에서 활용된다.
스포츠나 날씨, 증권 분야가 대표적이다. 표준화된 데이터를 얻기가 쉽고 그 형태도 비교적 깨끗한 것이 특징이다.
두 번째는 데이터에서 가치 있는 뉴스거리를 찾아내는 과정이다. 여기에는 통계적 방법론이 개입된다. 예를 들어 스포츠 뉴스에서 가장 의미 있는 정보는 통계적 일탈 지표를 먼저 확인하는 것이다.
최소치나 최고치 혹은 전 경기 대비 큰 변화를 보인 변수를 알고리즘은 계산해내야 한다. LA 다저스 투수 류현진 선수의 볼넷이 전 경기 대비 100% 증가했다는 데이터가 수집됐다면 뉴스 가치를 지닌 데이터로 분류하게 된다.
셋째는 어떤 각도로 기사를 작성할지 기사의 관점을 확정하는 단계다. 일반적으로 기자들이 제목을 뽑거나 기사의 주제를 확정하는 과정에 해당하는데, 이 또한 수집된 데이터의 분석을 통해 해결한다.
LA 다저스가 슬럼프에 빠졌다거나 홈 경기 승률이 오락가락한다거나 하는 시각을 알고리즘이 데이터의 비교 분석을 통해 추출해낸다.
다음으로는 최종 확정된 시각에 맞게 세부 기사를 배열하는 단계다. LA 다저스가 슬럼프에 빠졌다는 주제가 확정됐다면 그에 맞춰 근거가 되는 선수의 데이터를 제시하고 연결시킨다.
데이터만 풍부하다면 이 단계에서 외부 데이터를 더 끌어올 수 있고, 인용구도 만들어낼 수 있다고 한다. 데이터를 풍성하게 결합하는 프로세스가 진행되는 단계라고 요약할 수 있다.
마지막으로 자연어로 기사를 제작하는 단계이다. 전체 과정 중에 가장 덜 복잡한 단계다. 확정된 관점, 연결된 데이터로 영어 문장을 구성하는데 기사 관점과 핵심 요소에 따라 반복적으로 재작성된다.
이렇게 제작된 영어 문장들은 서로 이어붙이기가 자동으로 진행되면서 완성된 하나의 기사로 탄생하게 되는 것이다.
5기사 놓고 기자·로봇 충돌하나
확대보기
LA 타임스 본사 전경 <출처: 위키피디아, CC BY-SA 3.0>
속보 수준의 알고리즘 기사 작성 기술은 새롭지 않다. 이미 2011년부터 등장해 여러 용도로 활용되고 있다. 하지만 대형 언론사들은 이 기술의 적용에 부정적인 시선을 거두지 않고 있다.
내부 기자들은 자신의 일자리가 빼앗길 수 있다며 반발할 가능성이 높기 때문이다. 기자들의 단순 업무를 덜어주기 위해 기획된 기술이라 항변하더라도 차후 진행될 기술의 확장적 적용 가능성을 노조 차원에서는 염려하지 않을 수 없다.
‘LA타임스’가 로봇 저널리즘 기술에 적극적인 이유는 편집국 내 고비용 구조를 탈피하고자 하는 목적도 내재돼 있다.
‘LA타임스’는 2013년 8월 디자이너를 포함해 11명의 직원을 해고한 바 있다. 모회사인 트리뷴컴퍼니는 파산 신청 이후 여전히 재정 불안 국면을 벗어나지 못하고 있다. ‘LA타임스’가 매각의 손길을 기다리고 있다는 소문은 이미 사실로 확증된 상황이다.
로봇 저널리즘 (Robot Journalism)
글 이성규 블로터 기자
의견62
보내기폰트설정 메뉴
1로봇이 기사 쓰는 시대, 현실로
‘기레기’(기자+쓰레기)라는 비아냥 섞인 단어가 난무한다. 많은 수의 기사가 정형화된 틀, 식상한 공식에 맞춰 이른바 ‘복붙’(복사하기-붙이기)이 반복된 흔적이 농후해진 탓이다. 이를 두고 이용자들은 로봇 같다고 힐난한다.
로봇이 기사를 쓴 것으로 착각했다는 조롱도 튀어나온다. 인간이 썼을까, 로봇이 썼을까 헷갈린다고도 한다. 정말 로봇이 기사를 쓴다면 지금보다는 나을까? 어쩌면 더 나을지도 모른다. 현재의 기술 수준이라면 가능할 듯도 하다. 정밀한 알고리즘의 힘을 빌린다면 말이다.

로봇이 펜으로 직접 기사를 쓸 날도 멀지 않았다.
로봇 저널리즘은 미국 언론계에선 낯설지 않다. ‘LA타임스’, ‘로이터’ 등은 속보 기사의 일부를 로봇으로 대체했다. 단문 몇 단락 수준이긴 하지만 데이터에 기반해 정확한 기사를 작성해낸다.
일부 기업은 장문 기사를 작성하는 수준까지 완성도를 높였다. 논조에 따라 단어를 자동으로 교체하기도 하고 동일 단어가 반복돼 쓰이는 걸 막기 위해 유사 단어 대체 기능까지 지원한다. 알고리즘 고도화, 컴퓨팅 기술의 파워가 이러한 현실을 만들어냈다.
2소프트웨어 활용한 기사 작성 방식
로봇 저널리즘은 다양한 이름으로 불리고 있다. 기사 제작 알고리즘에 주목, 알고리즘 책임 보도, 알고리즘 저널리즘으로 명명되기도 하고 ‘컴퓨테이셔널 저널리즘’(Computational Journalism), ‘데이터 저널리즘’(Data Journalism)으로 묶어서 호명하는 이들도 적지 않다.
컴퓨터 과학과 저널리즘이 조우하면서 혼란스럽게 명명되는 흐름들이 지속되고 있지만 대체로 로봇 저널리즘이라는 표현으로 수렴해가는 듯하다.
로봇 저널리즘은 엄격하게 정의하면 컴퓨팅 기술에 기초해 소프트웨어를 활용하는 기사 작성 방식을 의미한다.
물리적 실체로서 로봇이 리포팅을 대신하는 개념은 아니다. 정의된 문제를 해결해가는 일련의 알고리즘이 기사 작성에 직접 개입하는 형식을 두고 로봇 저널리즘이라고 부른다.
로봇 저널리즘의 역사를 살피기 위해서는 약 40년 전인 1977년으로 거슬러 올라가야 한다.
1977년 미국 캘리포니아대학교 정보컴퓨터과학과 제임스 미한 교수는 ‘테일스핀’(Tale Spin)이라는 이야기 자동 제작 프로그램에 대한 논문을 발표했다. 제목은 ‘테일스핀, 이야기를 쓰는 인터렉티브 프로그램’이었다.
제임스 미한 교수는 문제 기반 스토리텔링의 원리를 최초로 프로그램으로 검증하려 했던 인물이다. 논문에도 명시돼 있지만 테일스핀은 이야기를 제작하는 데 어떤 종류의 지식과 정보가 필요한지 밝혀내는 데 목적을 두고 있었다.
이를 위해 실제 컴퓨터 프로그램을 만들었고 그 결과물도 공개했다. 하지만 그가 개발한 프로그램이 기사 작성에도 활용될 수 있을 것이라고 생각하는 이는 드물었다.
최근 로봇 저널리즘이 세간의 이목을 받게 된 데엔 스타트업 내러티브사이언스의 공이 컸다. 내러티브사이언스는 미국 노스웨스턴대 지능정보랩의 학술 프로젝트 ‘스태츠몽키’(StatsMonkey)에서 시작됐다.
스태츠몽키는 스포츠 게임 데이터를 수집해 자동으로 기사를 완성하는 프로그램이다. 이 프로젝트에 참여한 연구진들이 뭉쳐 노스웨스턴대로부터 관련 특허와 라이선스를 획득한 뒤 내러티브사이언스라는 회사를 2010년 창업하게 된다.
3‘LA타임스’, LA 지진 기사 컴퓨터가 작성토록

로봇이 작성한 LA 타임스 기사. 기사 하단에 알고리즘이 작성했다고 명시해두고 있다. <출처: LA 타임스 화면 캡처>
로봇 저널리즘을 활발하게 적용하고 있는 언론사로는 ‘LA타임스’를 꼽는다.
올해 3월 LA 지역에서 발생한 지진 속보를 알고리즘으로 가장 빨리 전달해 주목을 받았다. 당시 보도 과정을 재구성해보면 다음과 같다.
오전 6시 25분. LA에 강도 4.4의 지진이 발생한다. USGS는 즉각 지진 관련 데이터를 수집해 경고를 발령하고 동시에 정형화된 데이터를 API를 통해 제공한다. 지진 발생 데이터가 도착하자마자 ‘LA타임스’ 담당 기자에게는 e메일과 함께 메시지가 도착한다.
“지진 발생 기사의 발행 준비가 완료됐습니다”
기자는 침대에서 일어나 먼저 컴퓨터를 켰다. 간단히 팩트를 크로스 체크한 뒤 콘텐츠관리시스템(CMS)에서 ‘퍼블리싱’ 단추를 누른다. 그리고 한편의 기사가 온라인에 게재된다. 제목은 이랬다.
‘Earthquake aftershock: 2.7 quake strikes near Westwood’
이 모든 작업이 완료되기까지 걸린 시간은 불과 8분. ‘LA타임스’는 미국 서부 언론사 가운데 가장 빨리 지진 발생을 속보로 내보내는 데 성공했다.
속보를 발송하기까지 기자가 개입한 작업은 사실을 확인하고 ‘퍼블리싱’ 단추를 누른 것이 전부였다. 데이터에 대한 무한 신뢰가 전제된다면 속보 발송 시간은 이보다 더 당길 수 있었다.
‘퀘이크봇’(Quakebot)은 ‘LA타임스’의 개발자 슈벤크가 개발한 컴퓨테이셔널 기사 작성 알고리즘 가운데 지진 기사를 담당하는 로봇의 명칭이다. 퀘이크봇은 진도 3.0 이상의 지진이 발생하면 자동으로 작동한다.
API를 통해 전달된 데이터로 기사를 작성하고 CMS에 등록한다. 스트레이트 기사의 기본 문장 구조가 규격화돼 있기에 적절한 위치에 정확한 데이터만 배치하면 간단한 발문이 생성되는 방식이다. 제목도 동시에 추출된다.
4로봇 기사 작성의 5단계

내러티브 사이언스의 기사 작성 로봇 ‘퀼’ <출처: 내러티브사이언스 화면 캡처>
‘LA타임스’의 기사 작성 로봇은 로봇 저널리즘 기술의 1단계 수준이다. ‘데이터 수집→구조화된 문장에 데이터 배치→온라인 퍼블리싱’의 비교적 단순한 작업 흐름을 갖고 있다. 하지만 내러티브사이언스는 한층 고도화된 스토리텔링 기술을 개발해 편집국으로 침투해 들어가고 있다.
이들이 개발한 컴퓨테이셔널 스토리텔링 솔루션 ‘퀼‘(Quill)은 데이터마이닝을 거쳐 인공 지능 알고리즘에 의한 구조화, 분석, 해석, 조직화, 작성에 이르는 과정을 모두 기계가 대처하는 수준에 이르렀다.
콜럼비아대학교 토우센터 자료에 따르면 일반적으로 로봇 기사 작성 기술은 5가지 단계로 구성된다. 첫 번째는 데이터를 수집, 분석하는 단계이다. 로봇 저널리즘은 주로 표준화된 데이터가 풍부한 영역에서 활용된다.
스포츠나 날씨, 증권 분야가 대표적이다. 표준화된 데이터를 얻기가 쉽고 그 형태도 비교적 깨끗한 것이 특징이다.
두 번째는 데이터에서 가치 있는 뉴스거리를 찾아내는 과정이다. 여기에는 통계적 방법론이 개입된다. 예를 들어 스포츠 뉴스에서 가장 의미 있는 정보는 통계적 일탈 지표를 먼저 확인하는 것이다.
최소치나 최고치 혹은 전 경기 대비 큰 변화를 보인 변수를 알고리즘은 계산해내야 한다. LA 다저스 투수 류현진 선수의 볼넷이 전 경기 대비 100% 증가했다는 데이터가 수집됐다면 뉴스 가치를 지닌 데이터로 분류하게 된다.
셋째는 어떤 각도로 기사를 작성할지 기사의 관점을 확정하는 단계다. 일반적으로 기자들이 제목을 뽑거나 기사의 주제를 확정하는 과정에 해당하는데, 이 또한 수집된 데이터의 분석을 통해 해결한다.
LA 다저스가 슬럼프에 빠졌다거나 홈 경기 승률이 오락가락한다거나 하는 시각을 알고리즘이 데이터의 비교 분석을 통해 추출해낸다.
다음으로는 최종 확정된 시각에 맞게 세부 기사를 배열하는 단계다. LA 다저스가 슬럼프에 빠졌다는 주제가 확정됐다면 그에 맞춰 근거가 되는 선수의 데이터를 제시하고 연결시킨다.
데이터만 풍부하다면 이 단계에서 외부 데이터를 더 끌어올 수 있고, 인용구도 만들어낼 수 있다고 한다. 데이터를 풍성하게 결합하는 프로세스가 진행되는 단계라고 요약할 수 있다.
마지막으로 자연어로 기사를 제작하는 단계이다. 전체 과정 중에 가장 덜 복잡한 단계다. 확정된 관점, 연결된 데이터로 영어 문장을 구성하는데 기사 관점과 핵심 요소에 따라 반복적으로 재작성된다.
이렇게 제작된 영어 문장들은 서로 이어붙이기가 자동으로 진행되면서 완성된 하나의 기사로 탄생하게 되는 것이다.
5기사 놓고 기자·로봇 충돌하나

LA 타임스 본사 전경 <출처: 위키피디아, CC BY-SA 3.0>
속보 수준의 알고리즘 기사 작성 기술은 새롭지 않다. 이미 2011년부터 등장해 여러 용도로 활용되고 있다. 하지만 대형 언론사들은 이 기술의 적용에 부정적인 시선을 거두지 않고 있다.
내부 기자들은 자신의 일자리가 빼앗길 수 있다며 반발할 가능성이 높기 때문이다. 기자들의 단순 업무를 덜어주기 위해 기획된 기술이라 항변하더라도 차후 진행될 기술의 확장적 적용 가능성을 노조 차원에서는 염려하지 않을 수 없다.
‘LA타임스’가 로봇 저널리즘 기술에 적극적인 이유는 편집국 내 고비용 구조를 탈피하고자 하는 목적도 내재돼 있다.
‘LA타임스’는 2013년 8월 디자이너를 포함해 11명의 직원을 해고한 바 있다. 모회사인 트리뷴컴퍼니는 파산 신청 이후 여전히 재정 불안 국면을 벗어나지 못하고 있다. ‘LA타임스’가 매각의 손길을 기다리고 있다는 소문은 이미 사실로 확증된 상황이다.
'자료저장소' 카테고리의 다른 글
人情 단절이 만든 敵들 (0) | 2016.05.19 |
---|---|
미국의 총기 허용, 한국의 핵보유 (0) | 2016.05.15 |
혁신을 거부하는 '한국 이데올로기' (0) | 2016.04.26 |
사르트르 EBS 강의 (0) | 2016.04.25 |
우리는 왜 설현의 손짓과 송중기의 눈빛에 무너지나 (0) | 2016.04.23 |