[미국 대표연구실②]MIT CSAIL 음성언어 시스템 그룹
"삶의 모든 장치와 대화 목표"···고급 음성언어 상호작용 연구
"늘 새로운 연구 필드 찾아서···'개척정신'만이 미래 바꾼다"


<MIT의 보이저 음성 언어 시스템>

1989년 여름 어느 날 미국 동부 매사추세츠주 케임브리지 일대. 개인전화 서비스도 널리 보급되지 않았을 시절. 코카콜라 음료수를 배달 중이던 초보 배달원이 수많은 건물 사이에서 길을 헤매고 있다.

목적지를 찾지 못한 음료수 배달원은 케임브리지 인근을 한참 돌고 돌다 길가에서 한 기계와 마주하게 된다. 기계 이름은 보이저(Voyager). 당시 MIT(매사추세츠공대) 컴퓨터 과학연구소 음성언어 시스템 연구팀이 개발한 '음성인식 위치 안내 기계'다.

배달원이 기계에게 "OO빌딩에 가는 길을 알려줘"라고 말하자 기계 화면에 지도가 뜬다. 이윽고 현재 위치로부터 빌딩까지의 정확한 방향을 알려준다. 인간이 처음으로 기계와 음성대화에 성공한 순간이다.

인간의 질문에 보이저가 케임브리지 지도를 보이며 대답했다.<사진=MIT CSAIL 제공>
인간의 질문에 보이저가 케임브리지 지도를 보이며 대답했다.<사진=MIT CSAIL 제공>
보이저를 개발한 연구팀들은 최초 음성대화 성공 장면을 바라보며 신난 기색을 감추지 않았다. 반면 코카콜라 음료수 배달원은 기계의 정확한 반응에 놀란 표정이 역력하다. 기계와의 첫 소통에 어색한 기류가 흐르기도 했다. 케임브리지에서 일어난 실제 장면이다.

그로부터 30년이 지났다.

"시리야~ 내일 날씨 알려줘~"
"하이 빅스비~ 오늘 일정 알려줘~"

스마트폰 사용자라면 한 번쯤은 말해봤을 법하다. 누구나 쉽게 접할 수 있는 음성인식 시스템. 최근에는 애플의 '시리', 구글의 '구글 나우', 마이크로소프트의 '코타나', 갤럭시의 '빅스비' 등의 다양한 서비스가 등장하고 있다.

우리의 생활 편의를 한층 높여주는 음성인식 기술들은 2010년대부터 본격적으로 인류의 곁으로 파고들기 시작했다. 이처럼 음성인식 기술이 해를 거듭할수록 급격히 진화하는 가운데 30년 전부터 개척정신 하나로 음성인식 기술을 꾸준히 연구해온 연구그룹이 있다.

MIT CSAIL SLS 연구팀 단체사진. 이 그룹에는 총 25여명의 연구자가 소속돼 있다.<사진=MIT CSAIL 홈페이지 제공>
MIT CSAIL SLS 연구팀 단체사진. 이 그룹에는 총 25여명의 연구자가 소속돼 있다.<사진=MIT CSAIL 홈페이지 제공>
주인공은 MIT CSAIL(컴퓨터 과학 및 AI 연구소) Spoken Language Systems Group(음성언어 시스템 그룹)이다. 

MIT 음성언어 시스템 그룹은 1989년 인간과 기계와의 음성대화를 성공시킨 이후에도 1997년 5월 쥬피터(Jupiter)란 이름의 음성인식 서비스를 대중에게 선보였다. 쥬피터는 전화로 통화하듯 일기예보를 전해준다. 전화로 날씨를 물어보면 쥬피터가 상세하게 대답해준다.

당시 쥬피터는 수십만 건의 전화를 받았다. 90% 이상의 단어 정확도를 달성했고 2000단어 이상의 단어를 학습하기도 했다. 쥬피터는 온도·풍속·습도·일출시간 등에 대한 정보뿐만 아니라 일반적인 일기예보에 대한 질문에도 대답할 수 있었다. 

"카리브해에서 햇볕이 가장 잘 드는 장소는?", "내일 바람이 가장 많이 부는 도시는?", "토네이도가 몰아치는 도시는?" 등의 질문에도 술술 대답했다. 음성인식 연구·개발은 MIT에서 시작됐다는 말도 과언이 아닌듯하다.

◆ '화자'정보 넘어서 '방언'까지 인식하는 음성인식으로 거듭

MIT CSAIL에는 100명이 넘는 교수진과 800명 이상의 대학생·대학원생 등등 900명이 넘는 R&D 인력이 소속돼 있다. 1963년부터 MIT에서 시작된 'Project MAC'(the Project on Mathematics and Computation·수학·계산 프로젝트)과 'AI 연구소'가 합쳐져 2003년 CSAIL이 만들어졌다.

짐 글래스 교수가 음성언어 시스템 연구분야에 대해 설명하고 있다.<사진=박성민 기자>
짐 글래스 교수가 음성언어 시스템 연구분야에 대해 설명하고 있다.<사진=박성민 기자>
CSAIL에는 60개 이상의 연구그룹이 있다. 그중 보이저와 쥬피터를 개발했던 음성언어 시스템 그룹에는 현재 25명 이상의 연구자가 그룹을 이루고 있다.

음성언어 시스템 그룹의 연구리더인 짐 글래스(Jim Glass) 교수는 "우리의 목표는 전 세계 모든 사람이 자연어를 통해 컴퓨터와 상호 작용하는 기술을 만드는 것"이라며 "화자정보를 넘어 '방언'까지 인식하는 기술을 개발하고 있다"고 말했다.

이어 그는 "기계와 대화하는 정보 기반 사회를 만드는데 근본적인 역할을 수행할 것"이라고 덧붙였다.

음성신호는 언어(문장)보다 많은 정보를 담고 있다. 예로 한 사람이 내뱉은 말에는 화자에 대한 정보, 감정 정보, 메시지 뉘앙스, 엑센트 정보, 언어 의미 등의 다양한 정보가 포함된다. 

음성언어 시스템 그룹은 이런 모든 음성신호를 데이터화시켜 인간이 해석·이해하는 연구를 진행하고 있다. AI 기술이 기반이 된다. 음성인식 서비스인 시리, 빅스비 등이 주인의 목소리만 알아듣는 기술 등으로도 응용될 수 있다.

최근 진행 중인 연구 주제 가운데 하나는 방언 인식이다. 아랍국가의 경우 역사적으로 하나의 나라였다가 흩어진 나라다. 때문에 국가별로 방언이 다양하다. 이처럼 방언을 구분하는 음성인식 연구뿐만 아니라 모든 국가가 하나의 자연어를 통해 소통하는 기술개발에 중점을 두고 있다.

◆ 연구리더의 고집 "개척정신만이 인류 미래를 바꾼다"

짐 글래스 교수가 음성언어 시스템 그룹의 연구 철학을 설명하고 있다.<사진=박성민 기자>
짐 글래스 교수가 음성언어 시스템 그룹의 연구 철학을 설명하고 있다.<사진=박성민 기자>
"동료들에게 다른 사람들이 하고 있지 않은 연구에 대해서 생각하라고 자주 강조합니다. 이미 잘 알려진 분야는 따라 하기 쉽고 편하죠. 하지만 성과는 부족할 것입니다. 새로운 필드를 찾아 나서는 것은 어렵지만 이러한 개척정신만이 인류의 미래를 바꿀 것이라 확신합니다."  

음성언어 시스템 그룹 연구리더 짐 글래스 교수의 고집이다. 짐 교수는 수시로 동료들에게 '새로운 필드'를 강조한다. 

짐 교수는 "음성은 인간과 뗄래야 뗄 수 없는 최고의 커뮤니케이션 수단이다. 인간은 이미지 혹은 텍스트로 대화하지 않고 주로 음성으로 대화한다"라며 "음성은 가장 기초적이면서 핵심이 되는 커뮤니케이션 도구"라고 설명했다.

이어 그는 "기본이 되는 음성언어 연구 분야에는 무궁무진한 새로운 필드들이 펼쳐져 있다"라며 "우리는 개척정신으로 필드를 하나씩 정복해 나갈 것"이라고 단언했다.

음성언어 시스템 그룹의 미션은 음성인식 기술로 전 세계 사람들이 쉽게 교류할 수 있는 기회를 주는 것이다. 음성인식 분야의 한계를 차츰 극복해 나가고 인류의 편의를 넓혀 나가겠다는 것이 궁극적인 목표다.

짐 교수는 "AI가 인간을 지배할 수도 있다는 주장에 대해 걱정할 필요가 없다"라며 "아직은 AI 분야에 미약한 부분이 많이 있다. 누구나 자유롭게 활용하는 AI 음성인식 플랫폼으로 인류가 소통하는 날이 올 때까지 역할을 다하겠다"고 피력했다.
 

과학기술이 인류의 삶과 더욱 밀접해지고 있습니다. 과학기술의 진화는 연구실에서 시작되죠. 남다른 연구 문화를 보유한 연구실은 연구성과와 인재 배출의 산실입니다. 대덕넷은 올해 '대한민국 대표연구실' 기획 취재를 통해 우리나라의 연구실 문화를 발굴하고 있습니다. 또 과학선진국인 미국, 유럽, 일본 등 연구 현장을 심층 취재해 '과학선진국 100년 연구실을 가다' 기획으로 보도하고 있습니다. 독자 여러분의 많은 관심과 응원 부탁드립니다. 그리고 해외 취재가 순조롭게 완료되기까지 도움을 주신 재미한인과학기술자협회, 최의묵 NIH 박사, 카지타 다카아키 도쿄대 교수, 김유수 RIKEN 박사, 스칸디나비아 한인과학기술자협회, 재독과학기술자협회 등 많은 분들께 지면을 통해 감사 인사를 드립니다. 글 싣는 순서 미국 3편-일본 4편-유럽 3편.<편집자 편지> 

 
저작권자 © 헬로디디 무단전재 및 재배포 금지