LG, 이미지 이해하고 설명하는 AI 키운다…'글로벌 AI 챌린지'

입력 2023-01-31 10:11수정 2023-01-31 10:12

  • 작게보기

  • 기본크기

  • 크게보기

서울대 AI대학원·셔터스톡과 공동 진행…전 세계 AI 연구자 참여
4월까지 ‘AI의 이미지 이해 능력 평가’ 제로샷 이미지 캡셔닝 주제
AI 윤리 검증 끝낸 이미지-텍스트 데이터셋 2만 여개 무료 제공

LG AI연구원이 전 세계 AI(인공지능) 연구자를 대상으로 ‘LG 글로벌 AI 챌린지’를 개최하며 시각 AI와 언어 AI의 융합 트렌드를 주도하기 위해 발빠르게 움직이고 있다.

31일 LG에 따르면 LG AI연구원이 다음 달 1일부터 4월 말까지 온라인으로 진행하는 ‘LG 글로벌 AI 챌린지’는 ‘제로샷 이미지 캡셔닝’을 주제로 AI가 처음 본 이미지를 얼마나 정확하게 이해하고 설명하는지 평가하는 대회다.

(제공=LG)

제로샷 이미지 캡셔닝은 AI가 마치 사람의 시각 인지 능력처럼 처음 본 사물이나 동물, 풍경 등이 포함돼 있는 이미지를 봤을 때, 일러스트레이션, 그래픽 등 표현 방식이 다른 이미지를 봤을 때 기존 학습한 데이터를 기반으로 스스로 이해하고 유추한 결과를 텍스트로 설명할 수 있는 기술이다.

예컨대 토끼를 한 번도 본 적이 없는 사람이 토끼 여러 마리와 고양이 한 마리가 함께 있는 것을 봤을 때 동물들의 생김새와 특성의 공통점과 차이점을 학습하고 ‘토끼도 털은 있지만 고양이와는 다르게 귀가 길고, 뒷다리가 발달했다’라고 설명할 수 있는 것처럼 ‘제로샷 이미지 캡셔닝’의 작동 구조도 이와 유사하다.

‘제로샷 이미지 캡셔닝’ 기술이 점차 고도화되면 이미지 인식 AI 기술의 정확성과 공정성이 향상되고 결국 사람들의 실생활에 직접적으로 도움을 줄 수 있는 기술 개발로 이어질 수 있는 게 LG 측의 설명이다. 온라인상에 매일 올라오는 방대한 분량의 이미지 데이터들을 AI가 자동으로 캡션과 키워드를 생성해 검색의 편의성과 정확도를 향상시킬 수 있다는 것이다. 의학 전문 데이터를 추가 학습할 경우 의학 영상을 분석하는 ‘의학 전문가 AI’로 활약할 수도 있다.

‘제로샷 이미지 캡셔닝’은 인간의 학습 구조를 모방한 초거대 AI가 등장하며 기술 연구가 활발해지고 있으며 최근 화두가 되고 있는 텍스트를 이미지로 변환하는 ‘생성형 AI 모델’의 성능은 물론 이미지 검색의 정확도를 높이는 데도 활용되고 있다.

LG 측은 "최근 자연어 검색 분야에서 반향을 일으키고 있는 챗봇 ChatGPT 처럼 AI가 스스로 이미지를 이해하고 설명하며 해시태그도 달 수 있는 이미지 캡셔닝 기술은 이미지 검색 분야에 혁신을 가져올 것으로 예상된다"고 설명했다.

LG는 사람의 시각 인지 능력에 가까이 다가서는 제로샷 이미지 캡셔닝이 이미지를 텍스트로 표현하고 텍스트를 이미지로 시각화할 수 있는 초거대 멀티모달 AI인 ‘엑사원(EXAONE)’의 기술 개발 생태계에 크게 기여할 것으로 기대하고 있다.

(제공=LG)

LG AI연구원은 공동연구센터를 설립해 초거대 멀티모달 AI인 엑사원을 연구 중인 서울대학교 AI대학원, 이미지 캡셔닝 AI의 상용화 서비스를 공동으로 준비 중인 셔터스톡과 함께 이번 경진 대회를 진행한다.

세계 최대 규모의 이미지를 보유한 크리에이티브 플랫폼 기업인 셔터스톡은 편향성과 선정성 등에 대한 AI 윤리 검증을 끝낸 고품질의 이미지-텍스트 데이터셋 2만6000개를 무료로 제공한다.

해당 데이터셋은 사진 뿐 아니라 일러스트레이션, 그래픽 등 다양한 형태의 이미지를 포함하고 있어 대회 참가자들은 저작권과 비용, 품질에 대한 고민 없이 자신들의 AI 모델 최적화와 성능 평가를 진행할 수 있다.

이경무 서울대 AI대학원 석좌교수는 "이미지 캡셔닝은 영상에 나오는 객체들의 관계부터 상황과 문맥까지 이해해 인간의 언어로 표현하고 설명하게 하는 것으로 AI가 인간의 지능에 얼마나 가까워졌는지 보여주는 하나의 척도"라고 말했다.

이어 "학습 데이터 없이도 이러한 작업을 수행하는 제로샷 이미지 캡셔닝은 매우 도전적인 문제이자 세계적으로도 최근에 연구가 시작된 분야로 LG AI연구원과 서울대 AI대학원, 셔터스톡이 세계 최초로 챌린지와 워크샵을 공동 진행하는 것은 우리나라의 AI 역량이 이미 세계적인 수준에 도달했다는 것을 의미한다"고 덧붙였다.

한편 LG AI연구원은 올해 6월 캐나다 밴쿠버에서 열리는 컴퓨터 비전 분야 세계 최고 권위 학회인 ‘CVPR(Computer Vision and Pattern Recognition) 2023’에서 ‘제로샷 이미지 캡셔닝 평가의 새로운 개척자들’을 주제로 워크샵을 진행할 예정이다.

  • 좋아요0
  • 화나요0
  • 슬퍼요0
  • 추가취재 원해요0
주요뉴스
댓글
0 / 300
e스튜디오
많이 본 뉴스
뉴스발전소