통합 검색어 입력폼

AI 비서가 한국어를 어려워하는 이유

조회수 2017. 12. 6. 19:27 수정
번역beta Translated by kaka i
번역중 Now in translation
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 다양한 분야의 재밌고 유익한 콘텐츠를 카카오 플랫폼 곳곳에서 발견하고, 공감하고, 공유해보세요.

객체높임법과 주체높임법의 차이를 서술하시오.
“김 교수님한테 나 먼저 간다고 문자 보내줘.”
“네 알겠습니다. ‘나 먼저 간다’고 문자를 보냅니다.”

인공지능(AI) 비서에게 친구와 대화하듯이 음성 명령을 내리면 큰 낭패를 볼 수가 있습니다. 화자와 청자의 관계에 따라 표현이 달라지는 한국어의 특성 때문이죠. 한국어는 자연어처리(NLP)가 어려운 언어로 꼽힙니다. 한국어가 갖는 풍부한 표현은 컴퓨터와 사람이 인간의 언어로 상호작용하는 데 걸림돌이 됩니다. 그렇다면 이를 극복하기 위해 어떻게 해야 할까요?

구글코리아는 지난 12월5일 ‘AI 혁신과 자연어 처리’를 주제로 포럼을 열었습니다. 이 자리에서 구글 전산 언어학자 팀을 이끄는 최현정 연구원은 모국어지만 한국어의 자연어 처리가 가장 어려웠다고 고충을 토로했습니다.

최현정 구글 연구원
한국어의 자연어 처리가 힘든 이유
  • 구어와 문어의 큰 차이
  • 청자와 화자의 관계에 따른 높임법
  • 운율적 요소에 따른 의미 변화
  • 주어·서술어·목적어 등의 빈번한 생략
  • 띄어쓰기의 어려움
(나만 어려운 게 아니었어ㅠㅠ)

데이터 수집이 힘든 한국어

구어와 문어의 차이는 한국어에서 도드라지게 나타납니다. 최현정 연구원은 “영어에서도 나타나는 현상이지만 특히 한국에서는 구글에서 문어로 검색할 때와 구글 어시스턴트를 사용할 때 나오는 데이터가 굉장히 다르다”라고 말했습니다. 또 한국어는 화자와 청자의 관계에 따라 높임법이 달라지기 때문에 컴퓨터가 언어를 읽을 수 있도록 말뭉치(Corpus)를 구성하기도 힘듭니다.

영어권 사용자와 ‘구글 어시스턴트’의 대화
한국어 사용자와 ‘구글 어시스턴트’의 대화

또한 운율 요소가 크게 작용해 같은 단어라도 의미가 달라집니다. 예를 들어 영어에서 만날 때 인사와 헤어질 때 인사는 ‘하이(Hi)’와 ‘바이(Bye)’로 명확하게 나뉘지만, 한국어에서 ‘안녕’은 말의 높낮이와 길이, 세기에 따라 의미가 바뀌죠. 주어와 서술어 목적어가 자유롭게 생략되는 점도 한국어가 갖는 특징입니다.


띄어쓰기의 어려움도 자연어 처리를 힘들게 하는 요소입니다. 최현정 연구원은 “띄어쓰기가 어렵다 보니 잘못된 데이터를 많이 받는다”라며 “중·고등학생들은 일부러 띄어쓰기 사용을 안 하는 경향이 있다”라고 한국어 데이터 수집의 어려움을 전했습니다.

데이터 양이 적어도 극복할 수 있다

구글은 이러한 어려움을 머신러닝을 통해 해결하고 있습니다. 주어나 서술어, 목적어 등 문장의 필수 요소가 생략되는 문제는 완전한 문장을 복원하는 방식으로 풀어냅니다. 완전한 문장을 만들어주는 학습 시스템을 통해 컴퓨터는 완전한 문장 데이터를 전달받습니다. 또 같은 말에 대한 다양한 표현은 비슷한 의미들을 한 그룹으로 묶어서 이해할 수 있도록 하는 시스템을 사용합니다.


구글이 자연어 처리에서 강조하는 부분은 확장성입니다. 특정 언어에 대한 학습 코드를 넣는 방식이 아니라 머신러닝을 활용해 더 많은 언어로 쉽게 확장할 수 있는 시스템을 만드는 데 초점을 맞추고 있죠. 한국어 데이터가 부족하지 않냐는 지적에 대해 하다 셈토브 구글 리서치팀 디렉터는 “구글은 기술이나 알고리즘 개발에 투자해 한국어 데이터 부족 문제를 극복해왔다”라고 말했습니다. 최현정 연구원은 “신경망 모델로 넘어가면서 데이터가 적어도 좋은 퍼포먼스를 보이는 경우가 많이 있다”라며 “데이터 양으로 완전히 승부가 결정되는 건 아니다”라고 덧붙였습니다.


음성인식 기술의 개인정보 침해 여부도 도마에 올랐습니다. 구글이 안드로이드 사용자의 위치 정보를 동의 없이 수집해 온 사실이 최근 밝혀지며 논란이 됐었죠. 이에 대해 하다 셈토브 디렉터는 “마이크가 항상 켜져 있는 상태가 아니다”라며 “‘오케이 구글’ 같은 호출 명령을 내릴 때만 해당 음성 정보가 수집되고 구글에 전송되며 수집된 정보에 대해 신중하게 처리하고 있다”라고 밝혔습니다.

(지켜볼 것이다)
이 콘텐츠에 대해 어떻게 생각하시나요?