TxGemma の紹介: 治療薬開発を改善するオープンモデル

2025年3月25日

Shekoofeh Azizi Staff Research Scientist

新しい治療薬の開発はリスクが高く、とりわけ時間がかかることがよく知られており、費用は数十億ドルにのぼる可能性があります。候補薬の 90% は、第 1 相試験までしか進めません。そこで本日、大規模言語モデルの力を活用して治療薬開発の効率を向上させるオープンモデルコレクション TxGemma をリリースいたします。

Google DeepMind の Gemma は、最先端の軽量オープンモデルファミリーです。TxGemma は、Gemma をベースに特別なトレーニングを行い、有望な標的の特定から臨床試験結果の予測まで、創薬プロセス全体を通して治療の実体特性を理解し、予測できるようになっています。そのため、ラボから臨床現場までの時間を短縮し、従来の方法でかかる費用を削減できる可能性があります。

Tx-LLM から TxGemma へ

昨年 10 月に紹介した Tx-LLM は、医薬品開発に関連するさまざまな治療タスク向けにトレーニングした言語モデルでした。このモデルをファインチューニングして治療用途に利用することに大きな関心が寄せられたため、実用的な規模でオープンな後継モデルを開発することにしました。それが本日リリースする TxGemma で、デベロッパーは独自の治療データやタスクに適応させることができます。

TxGemma モデルは、700 万件のトレーニングサンプルを使って Gemma 2 をファインチューニングしたものです。このオープンモデルは、予測および会話形式による治療データ分析を目的としており、2B、9B、27B の 3 つのサイズがあり、それぞれのサイズに「predict」バージョンがあります。これは、分子に毒性があるかどうかを予測するなど、Therapeutic Data Commons から抽出した狭いタスクに合わせて調整したものです。

このタスクには、以下が含まれています。

分類（例: この分子は血液脳関門を通過するか？）

回帰（例: 薬物の結合親和性を予測する）

生成（例: 反応の生成物を与えて、一連の反応物を生成する）

最大の TxGemma モデル（27B predict バージョン）は、強力なパフォーマンスを発揮し、ほぼすべてのタスクで、以前の最先端汎用モデル（Tx-LLM）と同等かそれを上回ります。それだけでなく、単一のタスクに特化した多くのモデルと比べても、同等かそれを凌駕しています。具体的には、66 個のタスクのうち、以前のモデルと同等以上のパフォーマンスを示したものは 64 個（うち 45 個は上回る）、専用モデルと比較しても、同等以上のタスクは 50 個（うち 26 個は上回る）となっています。詳しい結果については、TxGemma の論文をご覧ください。

会話型 AI で洞察を深める

TxGemma には、9B と 27B の「chat」バージョンも含まれています。このバージョンのモデルでは、トレーニングに一般的なインストラクションチューニングデータが追加されているので、推論を説明したり、複雑な質問に答えたり、複数ターンのディスカッションに参加したりできます。たとえば、特定の分子に毒性があると予測した理由を TxGemma-Chat に尋ねると、分子の構造に基づいた説明を受けることができます。この会話機能により、TxGemma-Predict と比較すると、治療タスクに対する純粋なパフォーマンスがわずかに低下しています。

ファインチューニングで TxGemma の機能を拡張する

今回のリリースには、Colab ノートブックのファインチューニング例を含めているので、デベロッパーは TxGemma を独自の治療データやタスクに適応させることができます。このノートブックでは、TrialBench データセットを使って TxGemma をファインチューニングし、臨床試験の有害事象を予測できるようにする方法を示しています。ファインチューニングを行うと、独自データを使って独自の研究ニーズに合わせたモデルを作成できるので、新しい治療薬候補の安全性や効果の評価に活用したり、予測の精度を向上させたりできる可能性があります。

Agentic-Tx で高度な創薬ワークフローをオーケストレーションする

TxGemma をエージェントシステムに組み込むと、1 度だけの予測にとどまらず、さらに複雑な研究問題に取り組むことができます。私たちはその点も実証しています。標準的な言語モデルは、最新の外部知識や多段階推論を必要とするタスクを苦手とすることがあります。これに対処するため、Gemini 2.0 Pro を活用し、治療薬に特化したエージェントシステム Agentic-Tx を開発しました。Agentic-Tx には、以下をはじめとする 18 のツールが含まれています。

多段階推論ツールとしての TxGemma

PubMed、Wikipedia、ウェブからの一般的な検索ツール

特定の分子ツール

遺伝子およびタンパク質ツール

Agentic-Tx は、Humanity's Last Exam や ChemBench などのベンチマークにおいて、高い推論力が求められる化学タスクや生物学タスクで最高水準の結果を達成しています。今回のリリースに含まれている Colab ノートブックで、Agentic-Tx を使って複雑なワークフローのオーケストレーションを行い、マルチステップで研究問題に回答する方法を示しています。

Agentic-Tx は、推論時に TxGemma ベースのウェブツールを使うことで、ChemBench の化学系の質問に回答する。

TxGemma を使ってみる

TxGemma には、Vertex AI Model Garden または Hugging Face からアクセスできます。モデルを確認し、推論、ファインチューニング、エージェントの Colab ノートブックを試してみて、フィードバックを共有してください。TxGemma はオープンモデルなので、改善することができます。研究者の皆さんは、特定の治療開発ユースケースのデータでファインチューニングできます。TxGemma が創薬にかかる時間の短縮に貢献できることを楽しみにしています。

謝辞

_{本プロジェクトの主な寄与者: Eric Wang、Samuel Schmidgall、Fan Zhang、Paul F. Jaeger、Rory Pilgrim、Tiffany Chen。また、Shravya Shetty、Dale Webster、Avinatan Hassidim、Yossi Matias、Yun Liu、Rachelle Sico、Phoebe Kirk、Fereshteh Mahvar、Can "John" Kirmizi、Fayaz Jamil、Tim Thelin、Glenn Cameron、Victor Cotruta、David Fleet、Jon Shlens、Omar Sanseviero、Joe Fernandez、Joëlle Barral のプロジェクト全体にわたるフィードバックおよびサポートにも感謝します。}