새로운 치료제 개발은 위험하고 악명 높을 정도로 많은 시간이 걸리며 수십억 달러의 비용이 들 수도 있는 일입니다. 신약 후보 중 90%가 제1상 임상 시험을 통과하지 못하고 실패합니다. 오늘 대규모 언어 모델의 힘을 활용하여 치료제 개발의 효율성 개선을 위해 설계된 개방형 모델 컬렉션인 TxGemma를 출시하게 되어 기쁩니다.
경량의 최첨단 개방형 모델 제품군인 Google DeepMind의 Gemma를 기반으로 개발된 TxGemma는 유망한 표적 식별부터 임상 시험 결과 예측 지원까지, 전체 신약 발견 과정에서 치료제 후보 물질의 물성을 이해하고 예측하도록 특별히 학습되었습니다. 이에 따라 잠재적으로 실험실에서 개발한 치료제를 실제 현장에서 사용하기까지의 시간을 단축하고 전통적인 방법에 따르는 비용을 절감할 수 있습니다.
지난 10월에 저희는 약물 개발과 관련된 다양한 치료상의 과제를 위해 학습된 언어 모델인 Tx-LLM을 선보였습니다. 이 모델을 치료 응용 분야에서 사용 및 파인 튜닝하는 데 대한 지대한 관심을 확인한 후 실용적 규모의 개방형 후속 모델 TxGemma 개발에 착수했고, 드디어 개발자는 오늘 공개된 이 모델을 자체 치료 데이터 및 작업에 맞춰 조정할 수 있습니다.
700만 개의 학습 사례를 사용하여 Gemma 2에서 파인 튜닝된 TxGemma 모델은 예측 및 대화형 치료 데이터 분석을 위해 설계된 개방형 모델입니다. 이 모델은 2B, 9B 및 27B의 세 가지 크기로 제공됩니다. 각 크기에는 Therapeutic Data Commons에서 추출한 좁은 범위의 작업(예: 분자가 독성인지 예측)에 맞게 구체적으로 조정된 ’예측’ 버전이 포함됩니다.
이러한 작업에는 다음이 포함됩니다.
가장 큰 TxGemma 모델(27B 예측 버전)은 강력한 성능을 제공합니다. 이 모델의 성능은 거의 모든 작업에서 이전의 최첨단 범용 모델(Tx-LLM)보다 더 우수하거나 거의 동일할 뿐만 아니라, 단일 작업용으로 특별히 설계된 많은 모델에 견주거나 그들을 능가할 정도였습니다. 특히, 66개 작업 중 64개 작업에서 이전 모델보다 뛰어나거나(45개 작업에서 능가) 비슷한 성능을 보이며, 50개 작업에서 전문화된 모델과 동일한 수준의 성능을 보입니다(26개 작업에서 능가). 자세한 결과는 TxGemma 논문을 참조하세요.
TxGemma에는 9B 및 27B ‘채팅‘ 버전도 포함됩니다. 이러한 모델에는 학습에 추가된 일반적인 지시문 튜닝 데이터가 있어 추론을 설명하고, 복잡한 질문에 답하며, 여러 차례 주고받는 토론에 참여할 수 있습니다. 예를 들어, 연구자는 TxGemma-Chat에 특정 분자가 독성이 있다고 예측하는 이유를 묻고 분자의 구조를 기반으로 하는 설명을 얻을 수 있습니다. 이러한 대화 기능 때문에 원래의 치료제 개발 작업의 성능은 TxGemma-Predict와 비교해 약간 떨어집니다.
이번 출시의 일부로, 개발자가 TxGemma를 어떻게 자체 치료 데이터와 작업에 맞춰 조정하는지 보여주는 파인 튜닝 예시 Colab 노트북이 포함됩니다. 이 노트북은 TrialBench 데이터 세트를 사용하여, 임상 시험에서 이상반응을 예측하기 위해 TxGemma를 파인 튜닝하는 방법을 보여줍니다. 연구자는 파인 튜닝을 통해 독자적인 데이터를 활용하여 고유한 연구 요구에 맞는 모델을 만들 수 있으며, 이는 연구자가 잠재적인 새로운 치료법이 얼마나 안전한지 또는 얼마나 효과적인지 평가하는 데 도움이 되는 훨씬 더 정확한 예측으로 이어질 수 있습니다.
단일 단계 예측을 넘어, 저희는 어떻게 TxGemma를 에이전트 시스템에 통합하여 더 복잡한 연구 문제를 해결하는지 입증하고 있습니다. 표준 언어 모델은 최신 외부 지식이나 다단계 추론이 필요한 작업에서 어려움을 겪는 경우가 많습니다. 이 문제를 해결하기 위해 Gemini 2.0 Pro에서 제공하는 치료법 중심의 에이전트 시스템인 Agentic-Tx를 개발했습니다. Agentic-Tx에는 다음을 포함한 18가지 도구가 탑재되어 있습니다.
Agentic-Tx는 Humanity's Last Exam 및 ChemBench를 포함한 벤치마크에서 추론 집약적인 화학 및 생물학 작업에 대해 최첨단 결과를 달성합니다. 저희는 Agentic-Tx를 사용하여 복잡한 워크플로를 조정하고 다단계 연구 질문에 답하는 방법을 보여주기 위해 출시 버전에 Colab 노트북을 포함합니다.
오늘 바로 Vertex AI Model Garden과 Hugging Face에서 TxGemma에 액세스할 수 있습니다. 모델을 탐색하고 추론, 파인 튜닝, 에이전트 Colab 노트북을 사용해 보고 의견을 공유해 주시기 바랍니다! 개방형 모델인 TxGemma는 더 개선 가능하도록 설계되었으며 연구자들이 특정 치료제 개발의 사용 사례에 대한 데이터로 이를 파인 튜닝할 수 있습니다. 커뮤니티에서 어떤 식으로 TxGemma를 사용해 치료제 발견 속도를 높일지 기대가 큽니다.
Eric Wang, Samuel Schmidgall, Fan Zhang, Paul F. Jaeger, Rory Pilgrim, Tiffany Chen이 이 프로젝트에 중요한 도움을 주셨습니다. 또한 프로젝트 전반에 걸쳐 다양한 의견을 제시하고 지원해 주신 Shravya Shetty, Dale Webster, Avinatan Hassidim, Yossi Matias, Yun Liu, Rachelle Sico, Phoebe Kirk, Fereshteh Mahvar, Can "John" Kirmizi, Fayaz Jamil, Tim Thelin, Glenn Cameron, Victor Cotruta, David Fleet, Jon Shlens, Omar Sanseviero, Joe Fernandez, Joëlle Barral 님께도 감사드립니다.