『알파폴드: AI 신약개발 혁신』은 단백질 발견부터 단백질 구조생물학 그리고 알파폴드의 등장에 이르는 100여 년의 연구 역사를 다룬다. 알파폴드가 얼마나 대단한지 이해하려면 단백질이 인체에서 중요한 역할을 한다는 것과 험난했던 단백질 구조 예측 과정을 알아야 한다. 알파폴드의 직접적인 토대는 수십 년 동안 과학자들의 노력으로 축적한 단백질 구조 및 서열 정보 같은 데이터다. 이 책은 단백질의 정체를 밝혀온 수많은 과학자의 성과를 소개하며, 알파폴드가 불러온 구조생물학과 생명과학의 변화를 짚어 본다. 이 책을 통해 단백질 구조 예측 기술과 이를 통한 신약개발의 미래를 진단해 보자.
과학자들의 숭고한 노력이 담긴 구조생물학의 태동
‘1부 단백질 연구의 여명’에서는 앙투안 프랑수아 푸르크루아의 알부민 발견을 시작으로 단백질의 화학 조성을 연구하고 단백질에 사용되는 22개 아미노산을 밝혀낸 과정을 들여다본다. 단백질 구조를 해독하려면 결정화가 필요하며, 이를 위해서는 먼저 단백질을 순수 정제해야 한다. 크로마토그래피를 통한 단백질 순수 정제 기술이 없던 연구 초창기에는 자연계에서 매우 많이 존재하여 어렵지 않게 정제할 수 있는 단백질이 주요 연구 대상이었다. 그 중 하나가 헤모글로빈이다. 헤모글로빈의 성분과 기능이 드러나면서 세포 내에서 일어나는 화학 반응과 연관 지어 단백질 연구가 점차 발전되었다.
이후 크로마토그래피가 개발되어 단백질을 구성하는 아미노산의 종류를 알게 되었고, 1958년 단백질 아미노산 서열을 최초로 결정한 업적으로 프레더릭 생어가 첫 번째 노벨 화학상을 수상한다. 생어의 두 번째 노벨 화학상 수상은 1980년으로, DNA를 화학적으로 분해해 서열을 결정하는 방법인 ‘생어 염기 서열 분석’ 개발 덕분이었다. 여러 가지 화학물질을 사용하는 방법보다 훨씬 효율적이었던 생어 염기 서열 분석을 통해 단백질의 아미노산 서열을 손쉽게 파악하고 단백질의 기능을 분석하는 가장 중요한 1차 자료를 확보할 수 있게 되었다.
과학자들은 단백질의 비밀을 어떻게 밝혀냈는가
‘2부 실험구조생물학의 발전’에서는 X선 결정학을 이용해 과학자들이 얻은 성과를 소개한다. 그 중 1950년 라이너스 폴링은 다른 과학자들과 함께 단백질의 펩타이드 결합이 이중 결합적인 성격을 띤다는 사실에 착안하여 ‘알파 나선’과 ‘베타 시트’라는 단백질 구조 모델을 최초로 고안한다. 이후 막스 페르디난트 퍼루츠가 실험을 통해 이러한 구조가 실제로 존재한다는 것을 증명해 냈고, 존 카우더리 켄드루와 함께 헤모글로빈과 미오글로빈의 구조를 X선 결정학으로 처음 규명하며 1962년 노벨 화학상을 공동 수상한다.
헤모글로빈과 미오글로빈의 구조 규명으로 구조생물학이라는 학문이 본격적으로 시작되었다. 1960년대 후반부터 효소 중심으로 구조 결정이 활발히 진행되었고, 1971년에는 그동안 규명된 단백질 구조 정보를 취합하는 PDB(단백질 데이터 뱅크)가 설립되었다. 이후 싱크로트론 유래의 X선이 개발되면서 좀 더 높은 해상도의 회절 데이터를 통해 단백질 구조의 결정 속도가 급격히 빨라졌다. 한편에서는 암유전자 중 하나인 ‘K-Ras’, HIV(인간면역결핍바이러스) 유전자 등 질병 관련 단백질의 구조를 규명하는 방향으로 연구가 이어졌다.
단백질 구조를 밝혀내고 그 기능을 저해하는 물질을 찾는 것은 신약개발 과정에서 시작에 불과하다. 그러나 약물 표적 단백질 구조를 적극적으로 활용하면 후보물질을 빠르게 도출해 개발 기간을 줄이거나 선도물질을 최적화하는 단계에서 큰 도움을 받을 수 있다. 또 다른 중요한 성과로는 생체막에 존재하는 탓에 그간 결정화가 어려웠던 막단백질 결정화에 성공한 것이다. 그러나 막단백질 결정화는 여전히 실패율이 높았고 여러 가지 단백질이 결합된 단백질 복합체 중 상당수는 결정화되지 않아 구조 분석이 불가능했다. 이는 2010년대 들어 초저온 전자현미경(Cryo-EM)을 통한 방법론으로 서서히 극복되기 시작한다.
알파폴드, 단백질 구조 예측의 새로운 길을 제시하다
마지막으로 ‘3부 단백질 서열부터 구조 예측까지’는 알파폴드를 비롯한 단백질 구조 예측 인공지능이 등장하기까지 단백질 구조 예측 기술의 발전과 한계를 조명한다. 또한 인공지능을 통한 신약개발과 단백질 디자인의 가능성도 살펴본다. 현재 우리는 단백질 구조를 해독하는 ‘읽는 생물학’에서 단백질 디자인 소프트웨어로 단백질 구조를 지정하는 ‘쓰는 생물학’의 변곡점에 서 있다.
그 전까지 단백질이 접히는 경우의 수는 천문학적이라 단백질 3차 구조를 계산하는 데는 엄청난 컴퓨팅 자원이 필요했으며 정확도도 그리 높지 않았다. 이를 타개하기 위해 ‘로제타’, ‘상동 모델링’ 등 다양한 시도가 나타났고, 1994년부터는 CASP라는 학술대회가 개최되었다. 그러다 2010년대 이후 딥러닝으로 대표되는 인공지능이 비약적으로 발전하면서 DNA 시퀀싱 기술도 크게 성장하기 시작했다. 2020년의 알파폴드는 다중서열정렬(MSA)을 만든 다음 정교한 딥러닝 기술로 이를 분석하여 단백질 구조 정보를 최대한 끌어낸다. 이렇게 얻은 정보로 다중서열정렬을 다시 최적화하여 단백질 구조 정보를 점점 더 정밀하게 개선한다.
알파폴드는 아직 넘어야 할 난관이 많다. 가령 활성화나 비활성화에 따라 달라지는 단백질 구조를 감안하지 못하고, 고정된 구조 없이 흐느적거리는 무정형 단백질의 예측 신뢰도는 낮은 편이다. 이는 알파폴드뿐만 아니라 인공지능 기반의 구조 예측 방법론이 공유하는 한계이기도 하다. 따라서 인공지능을 통한 신약개발이나 단백질 디자인 등 관련 분야가 급속도로 발전하고 있지만 구조생물학의 판도를 바꾼 알파폴드에 비견되는 역대급 혁신이 필요한 시점이다. 한편으로는 기술 발전이 긍정적인 방향으로만 흐를 거라 단정할 수도 없다. 우리가 단백질 구조 예측 기술을 예의주시해야 할 이유이기도 하다. 이 책은 알파폴드가 불러온 혁신이 미래에 어떤 이득을 가져올지 가늠해 보는 장이 될 것이다.
남궁석 지음 | 바이오스펙테이터 펴냄 | 320쪽 | 3만원