이난영 과학 칼럼니스트
사람들이 일상에서 사용하는 언어, 즉 자연어의 의미를 분석해 컴퓨터가 처리할 수 있도록 하는 걸 전문용어로 자연어 처리(NLP: Natural Language Processing)라 한다. 쉽게 말해 기계가 인간의 일상 언어를 분석하고 이해하며 일반어로 대답할 수 있게 하는 기술이다.
인공지능(AI)의 핵심 기술 중 하나로 꼽히는 NLP의 응용 분야는 대단히 넓다. 이 중 가장 흔하게 접하는 예가 ‘질의응답 시스템’이다. 누군가 당신에게 “바퀴벌레는 죽으면 왜 뒤집혀 있지?”라는 다소 생소한 질문을 던졌다고 하자. 하필 그런 징그러운 벌레 얘기를 물을까 싶지만 어쨌든 답을 주기 위해 사람들은 우선 해답을 찾는 데 도움을 줄 만한 자료들을 찾아본다(후보검색 단계). 그 다음으로 자료들을 읽고 이로부터 답을 추론해 말이나 글로 전달한다(정답추출 단계). 질의응답 시스템의 작동 방식도 동일하다. 다만 인간과 달리 기계의 경우 사용자의 질문 의도를 파악하고, 관련 자료의 내용을 이해하기 위해 정밀한 자연어 처리기술이 추가로 요구된다. 스마트하지만 생각보단 인간의 손이 많이 가는 질의응답 시스템이 위의 질문에 대해 내놓은 답은 이렇다. “바퀴벌레는 다리가 길기 때문에 죽으면 다리가 뻣뻣해져서 중심을 잡지 못하고 몸이 뒤집힌다.” 내용은 이해가 되지만 어딘지 어색하다. 나만의 느낌인지 다른 이들도 비슷한 생각이 드는지 궁금하다.
당연한 이야기이지만 사람들은 언어를 통해 의미뿐 아니라 감정도 전달한다. 그리고 한 걸음 더 나아가 글이나 말 속에 사람 자체가 담기기도 한다. 우리는 글을 읽고 작자의 성별이나 나이, 성격 심지어는 건강상태까지도 추론할 수 있다. AI 역시 이런 작업을 수행할 수 있을까? 아직은 시작 단계라고 할 수 있지만 딥러닝(Deep Learing) 기반의 NLP는 정서 분석에도 활용된다. 일례로 딥러닝 인공지능 사용자가 ‘세부섬’과 ‘다이빙’이 아니라 ‘세부섬’과 ‘지진’을 함께 검색했다면 AI는 이 사용자를 여행 브랜드의 마케팅 캠페인에 적합한 대상이 아니라고 판단한다. 코어(Core) NLP라는 문장분류 프로그램을 이용해 정신질환이 있다고 시인한 이들의 언어 특성을 밝혀낸 연구 결과도 있다. 이 연구에 따르면 조현병을 앓고 있는 이들의 경우 자기 자신에 대한 언급을 자주 하는 편이고, 느낌표나 감정 표현 이모티콘을 사용하는 경우가 극히 드물다고 한다.
NLP 기술의 획기적 발전에 중심 역할을 한 딥러닝이란 무엇인가? 이를 알려면 유사한 의미로 자주 사용되는 머신러닝(Machine Learing) 혹은 기계학습에 대한 언급이 먼저 필요하다. AI 연구가 시작된 1950년대 초에는 프로그래머들이 명시적인 규칙을 충분히 많이 만들어 다루면 인간 수준의 AI를 만들 수 있다고 믿었다. 이 패러다임에선 규칙, 즉 프로그래밍과 이 규칙에 따라 처리될 데이터를 입력하면 해답이 출력된다. 반면 머신러닝에서는 샘플과 기대값, 즉 데이터와 이 데이터로부터 기대되는 해답을 주면 스스로 데이터 처리 작업을 위한 실행 규칙을 찾는다. 이를 흔히 ‘컴퓨터가 학습한다’고 표현한다. 딥러닝은 학습에 필요한 데이터를 수동으로 제공해야 하는 머신러닝과는 달리 사용할 데이터를 스스로 학습할 수 있다. 즉, 딥러닝에 기반한 인공지능은 단어나 구문이 문단 내에서 어떻게 사용되고 있는지 직접 관찰하는 방식으로 그 의미를 학습할 수 있다. 때문에 “NLP의 수준이 인간 학생의 수준에 좀 더 가까워진다”고 할 수 있다.
어쩌면 멀지 않은 장래에 인간은 아주 소수의 단어만으로도 말하는 이의 의도를 알아차릴 수 있는 AI와 대화를 나누게 될지도 모른다. 어쩌면 이런 기술의 발전이 모두에게 기분 좋은 일은 아닐 수도 있다는 생각이 든다. 좋은 기술이 꼭 좋은 의도로만 쓰이진 않는 걸 알기에 조금은 경계심이 생긴다.