구글 최신 AI언어모델 ‘팜2’, 이전보다 5배 많은 데이터 학습

입력 2023-05-17 16:06

URL공유
카카오톡

페이스북
X(트위터)

작게보기
기본크기
크게보기

팜2, 10일 공개 챗봇 ‘바드(Bard)’에 탑재
3.6조 개 토큰으로 학습...기존 LLM보다 월등

▲순다르 피차이 구글 최고경영자(CEO)가 10일(현지시간) 미국 캘리포니아주 마운틴뷰에서 열린 구글 I/O 행사에서 연설하고 있다. 마운틴뷰(미국)/AP뉴시스

구글이 최근 공개한 대규모 언어 모델(LLM)이 이전 버전보다 5배 많은 데이터를 학습에 사용한다고 미국 CNBC방송이 16일(현지시간) 보도했다.

구글은 10일 연례개발자회의(I/O)에서 인공지능 챗봇 ‘바드(Bard)’를 공개했다. 바드에는 구글의 최신 대규모 언어 모델(LLM) 팜2(PaLM)가 탑재됐다. 팜2는 지난해 4월 선보인 팜의 업그레이드 버전으로 100개 이상의 언어를 지원한다.

CNBC는 입수한 구글 내부 문서를 인용하며 “팜2가 3조6000억 개의 토큰으로 학습된다”고 전했다. 토큰은 AI가 인식하는 단어의 문자열로, LLM이 다음에 나타날 단어를 예측하도록 학습시키는 요소다. 지난해 출시된 이전 버전 팜은 7800억 개의 토큰으로 학습됐다.

팜2의 학습량은 기존 출시된 LLM보다 월등하다. 페이스북이 2월에 발표한 라마(LLaMA)는 1조4000억 개의 토큰으로 학습됐다. 오픈AI가 마지막으로 챗GPT의 학습 규모를 공개한 것은 GPT-3로 당시 회사는 3000억 개의 토큰으로 학습했다고 밝혔다. 구글이 2년 전 발표한 LLM인 람다(LaMDA)가 학습한 토큰은 1조5000억 개다.

구글은 팜2에 대해 “컴퓨트 최적 스케일링(compute-optimal scaling)이라는 새로운 기술을 사용했다”며 이를 통해 “더 빠른 추론, 더 적은 수의 매개변수 제공, 더 낮은 제공 비용 등 전반적으로 더 나은 성능으로 LLM의 효율성을 높일 수 있다”고 설명했다.

최근 구글, 오픈AI를 비롯한 글로벌 IT 기업은 자사 LLM의 세부 정보 공개를 꺼리는 분위기다. 두 회사 관계자는 CNBC에 “공개하지 않는 이유는 경쟁이 치열한 비즈니스 특성 때문”이라고 전했다.