카카오브레인의 AI신약연구팀은 지난 11일 단백질 구조 예측 프레임워크 ‘솔벤트(Solvent)’를 공개했다고 19일 밝혔다.
솔벤트는 단일서열 기반의 단백질폴딩(단백질의 아미노산 서열이 3차원 구조로 접히는 과정) 모델을 지원, 글로벌 기업의 단백질 구조 예측 AI보다 최소 3배 이상 빠른 속도로 단백질 구조를 예측할 수 있다.
단백질 구조 예측 모델에 대한 연구 진입 장벽을 낮추기 위해 솔벤트의 학습 코드도 깃허브에 추가 공개했다. 카카오브레인은 모델 공개 자체로는 개별 연구자의 연구 접근성이 떨어진다는 점에서 AI 신약 개발 연구자들이 보다 쉽고 빠르게 연구 태스크를 진행할 수 있도록 돕고, AI 신약 개발 생태계 발전에 기여하고자 학습 코드 공개를 결정했다.
솔벤트는 다중서열정렬에 의존하는 기존 모델과 달리 단일 서열 기반 구조 예측을 수행하므로, 드 노보(de novo) 단백질, 오르판(orphan) 단백질 등 난해한 단백질 구조 예측에 특화돼 있다. 또한 현존하는 최신 모듈을 사용자 친화적으로 탑재해, 새로운 모델을 쉽게 설계할 수 있게 했다. 따라서 사용자는 이를 활용해 개발한 커스텀 모델을 손쉽게 추가해 일반화하고, 간단한 코드로 균일한 모델 평가를 실행할 수 있다. 여기에 카카오브레인은 초거대 AI 기술까지 적용해 속도와 메모리 효율을 기존 학습 코드 대비 약 30% 향상시켰다.
솔벤트 연구 결과는 머신러닝 논문계에서 저명한 ‘AK’으로부터 호평을 받았으며, 카카오브레인은 솔벤트 공개로 연구 비용 절감과 더 나아가 신약 설계 단계 및 소요 시간 단축 효과도 기대하고 있다.
카카오브레인은 AI 캐드(CAD) 연구 분야에서도 해외 학계로부터 인정을 받고 있다. 초거대 AI를 활용한 흉부 엑스레이 언어-이미지 사전 훈련 관련 논문 ‘CXR-CLIP: Toward Large Scale Chest X-ray Language-Image Pre-training’은 의료 영상처리 분야의 최고 국제 컨퍼런스인 ‘MICCAI2023(Medical Image Computing and Computer Assisted Intervention)’의 포스터에 등재됐다.
이 논문은 카카오브레인의 의료영상처리 분야 첫 논문으로 이미 공개된 흉부 엑스레이 데이터셋을 활용해 엑스레이 이미지와 의학 리포트를 효율적으로 매칭하는 연구를 다루고 있다. 카카오브레인은 기존 방법보다 질병 검출률을 효율적으로 증가시키는 결과를 도출해 AI 기술이 엑스레이 판독 분야에서 유용하게 활용될 수 있다는 사실을 입증했다.
카카오브레인은 세계 최대 컴퓨터 비전 학회 ‘국제컴퓨터비전・패턴인식 학술대회(CVPR, Computer Vision and Pattern Recognition) 2023’에서 셔터스톡, LG AI 연구원, 서울대 AI대학원 주관으로 열린 이미지 캡셔닝 챌린지 ‘NICE(New Frontiers for Zero-shot Workshop)’에서도 3위를 차지했다. 카카오브레인은 이와 같은 성과를 바탕으로 흉부 엑스레이 초안 판독문 작성 모델의 성능을 고도화할 계획이다.
카카오브레인 김일두 각자 대표는 “회사의 주요 연구분야 중 하나인 AI 헬스케어 부문에서 성공적인 성과를 거두게 돼 기쁘다”며 “초거대 AI를 통해 인류의 건강을 증진시킬 수 있도록 AI 헬스케어 분야를 지속적으로 연구할 것”이라고 전했다.