반응 속도 최소 232밀리초
“사용 편의성 큰 진전 이뤄”
챗GPT 개발사 오픈AI가 인간과 같은 반응 속도로 음성 대화가 가능한 새로운 AI모델 ‘GPT-4o(GPT-포오)’를 선보였다.
13일(현지시간) 블룸버그통신에 따르면 미라 무라티 오픈AI 최고기술책임자(CTO)는 이날 라이브 스트리밍 행사에서 기존 모델을 업데이트한 대규모 언어모델(LLM) GPT-4o를 공개하고 성능을 시연했다.
GPT-4o에서 ‘o’는 ‘모든’을 의미하는 ‘옴니’의 첫 글자다. 한국어를 포함한 50가지 언어에 대응하는 것은 물론, 문자와 이미지ㆍ음성까지 인식한다. 실시간 번역 외에 스마트폰 카메라를 사용, 사람의 표정이나 그래프마저 읽는다.
오픈 AI는 “시스템에 말을 걸면 빠르게 음성으로 응답해 흐르는 듯한 대화가 가능하다”고 설명했다. 음성에 대한 반응 속도는 빠르면 232밀리초, 평균 320밀리초로 사람이 실제로 대화할 때와 같은 수준을 실현했다고 한다. 인간의 감정을 읽고 농담도 하면서, 한층 자연스러운 대화가 가능해졌다.
이날 열린 웹 발표회 시연에서는 개발자가 음성으로 아이를 재우는 장면을 가정하고 그에 맞는 이야기를 읽어달라고 요청했다. 목소리를 극화 톤으로 바꾸고, 노래를 부르며 읽게 하는 등의 조작을 선보였다.
미라 무라티 오픈AI 최고기술책임자(CTO)는 이날 발표회에서 “처음으로 사용 편의성 측면에서 정말로 큰 진전을 이뤘다고 생각하게 됐다”고 말했다.
샘 올트먼 오픈AI 최고경영자는 이날 소셜미디어 엑스(X·옛 트위터)에서 “인간 수준의 반응과 표현력에 이른 것은 큰 변화”라며 “영화 ‘her’에 나오는 AI처럼 느껴지며, 현실이라는 것이 조금 놀랍다”고 강조했다.