[피플] 이찬규 클로바 스피치 리더 “어떤 대화든 AI가 풀어낸다…내년 글로벌 준비 끝”

입력 2021-11-23 17:00수정 2021-11-23 17:14

  • 작게보기

  • 기본크기

  • 크게보기

▲이찬규 네이버 클로바 스피치(Speech)팀 리더. (사진제공=네이버)

어떤 음성이든 쉽게 텍스트로 저장할 수 있는 네이버 ‘클로바노트’ 서비스가 혜성처럼 등장했다. 회의록과 강의 노트를 인공지능(AI)이 대신 써주는 셈이니, 출시 1년 만에 서비스는 ‘폭풍’ 성장했다.

이찬규 네이버 클로바 스피치(Speech)팀 리더는 23일 이투데이와 만나 클로바노트에 대해 “어떤 환경에서 어떤 주제를 다룬 음성이든지 ‘노트’로 변환해주는 서비스”라고 설명했다.

클로바노트에는 세 가지 기술이 적용됐다. 애플리케이션(앱)에 음성 파일을 올리면 ‘VAD(보이스 액티비티 디텍션)’ 알고리즘이 말소리만 발라낸다. 그런 뒤 AI 엔진 ‘네스트’가 말을 텍스트로 풀어내고, 화자 인식기 ‘와이즈’가 누가 말했는지를 구분해 사용자에게 노트 형식으로 제공한다.

이런 복잡한 기술을 통해 클로바노트는 음성을 통한 커뮤니케이션을 향한다. 이 리더는 “사람이 커뮤니케이션하는 과정을 생각하면 음성이 가장 자연스럽다”며 “정보를 저장하기 위해 대화를 텍스트로 변환하는 것은 엄밀히 말하면 꽤 불편한 작업”이라고 말했다. 이어 “단순히 음성 녹음을 텍스트로 전사하는 것을 넘어, 음성을 포함하고 AI를 가미해 유용한 정보를 찾을 수 있게 한 ‘노트’ 앱이 클로바노트의 정체성인 셈”이라고 강조했다.

처음 클로바노트 서비스를 구상하게 된 이유와도 연결된다. 이 리더는 “회의를 하면 참여자 한 사람이 서기 역할을 맡아 회의록을 작성하고 이를 공유하는데, 이 회의록에 빠진 내용도 많고 작성자의 주관이 들어가기도 하며 어떤 주제에 대해 다루는 온도 등이 전달되지 않는 경우가 많다”며 “음성인식을 사용해 회의를 정리하고, 실제 음성과 함께 이를 공유할 수 있다면 정말 유용하겠다고 생각해 클로바노트를 구상하게 됐다”고 설명했다.

그가 생각하는 클로바노트의 차별성은 정확한 인식 성능이다. 클로바노트 음성인식의 기반인 AI 네스트는 데이터 자체만으로도 AI가 학습할 수 있는 딥러닝 기법인 ‘자기지도학습’을 통해 압도적인 한국어 인식률을 자랑한다. 바로 이 리더가 맡은 분야다. 그는 “네스트 음성인식은 자기지도학습을 사용한 빅 모델인 3.0까지 준비됐다. 이를 클로바노트에 적용한 상태”라며 “이를 통해 기계가 데이터를 5배 이상 학습하면서 자동으로 음성 인식률이 좋아졌다”고 말했다.

사용자는 이에 호응했다. 클로바노트는 지난해 11월 출시 이후 1년 만에 가입자 100만 명을 돌파하며 흥행 중이다. 이 리더는 “실제로 앱을 내려받아 실행한 비율이 90%를 훨씬 넘는다”며 “단순히 다운받는 것뿐만 아니라 실제 사용까지 이어지는 것”이라고 말했다. 또한 “고령이나 청각장애가 있는 사용자도 높은 활용도를 보인다는 피드백을 받기도 했다”고 덧붙였다.

이용 추이를 보면 20~40대 젊은 사용자가 많았다. 주중 사용량이 주말 사용량보다 많고, 평일의 경우 오전ㆍ오후 근무시간엔 사용량이 늘어나는 반면 점심시간과 오후 6시 이후에는 사용량이 떨어진다. 20대 사용자의 경우 대학교 학기 중에 사용량이 폭증했지만, 방학 기간이 되면 줄어든다. 이 리더는 “학기 중에 클로바노트를 강의 노트 등으로 사용하는 20대 사용자와 회사에서 사용하는 분들이 많은 것 같다”고 해석했다.

클로바노트는 영어, 일본어까지 기술을 확장하며 내년 해외 진출을 앞두고 있다. 첫 번째 시장은 일본이다. 이 리더는 “음성인식기부터 표기법까지 기술적으로 일본 시장에 대응할 수 있는 준비가 끝났다”며 “다만 서비스를 어떤 형태로 하는 것이 사용자들에게 가장 효율적으로 닿는 방법일지를 전략적으로 검토하고 있다”고 말했다. 이어 “클로바 자체가 네이버와 라인의 공통 브랜드인 만큼 협업하지 않을까 한다”고 언급하기도 했다.

이 리더가 이루고 싶은 목표도 있다. 말소리와 음악, 생활 소음 등 음성을 통해 얻을 수 있는 많은 정보를 클로바노트를 통해 전달하는 것이다. 이 리더는 “대화 음성을 들으면 이 사람이 기분이 좋은지 나쁜지, 어떤 회의에서 언제 열띠게 회의했고 어딘 지루했는지 사람은 알 수 있지만, AI는 이를 알 수 없다”며 “음성에서 텍스트로 바뀌며 사라진 정보를 하나씩 풀어내는 풍부한 트랜스크립트를 제공해 사용자에 훨씬 도움 될 수 있다면 좋겠다”고 포부를 밝혔다.

  • 좋아요0
  • 화나요0
  • 슬퍼요0
  • 추가취재 원해요0
주요뉴스
댓글
0 / 300
e스튜디오
많이 본 뉴스
뉴스발전소