TxGemma 现已推出:该开放模型可改进疗法开发

2025年3月25日
Shekoofeh Azizi Staff Research Scientist

开发新疗法风险重重,速度极为缓慢,并且可能需要花费数十亿美元。90% 的候选药物无法通过第一阶段试验。而今天,我们很高兴能发布 TxGemma,它包含一系列开放模型,旨在利用大型语言模型的强大功能来提高疗法开发的效率。

TxGemma 以 Google DeepMind 的 Gemma 为基础,这是一个先进的轻量级开放模型系列。TxGemma 经过专门训练,可以在整个探索过程中理解和预测治疗实体的特性,既能确定很可能有效的靶点,又能帮助预测临床试验结果。这可能会缩短疗法从开发到投入使用的时间,并降低与传统方法相关的成本。


从 Tx-LLM 到 TxGemma

去年 10 月,我们推出了 Tx-LLM,这个语言模型经过训练,专用于一系列与药物开发相关的治疗任务。在将该模型用于治疗应用并加以微调方面,我们产生了浓厚的兴趣。在此基础上,我们开发了该模型的开放式后续版本 TxGemma,用于满足实际规模需求。今天,我们将向开发者发布 TxGemma,以便开发者根据自己的治疗数据和任务对该模型进行调整。

在使用 700 万个训练示例对 Gemma 2 进行微调后,我们开发出了 TxGemma 模型。这是专为预测和对话式治疗数据分析而设计的开放模型。这些模型将以三种规格提供,分别为 2B、9B 和 27B。每种规格都包含“预测”版本,该版本针对 Therapeutic Data Commons 平台中的各类窄任务 (Narrow Task) 进行了专门定制,例如预测分子是否具有毒性。

这些任务包括:

  • 分类(例如,此分子能否穿过血脑屏障?)

  • 回归(例如,预测药物的结合亲和力)

  • 和生成(例如,根据给定反应的产物生成反应物组)

最大的 TxGemma 模型(27B 预测版本)可提供强大性能。它不仅在几乎所有任务上都优于或大致相当于我们之前的先进通才模型 (Tx-LLM),还可媲美或超过许多专为单一任务设计的模型。具体而言,TxGemma 在 64 项任务(共 66 项)中展现出了优于或相当于我们之前模型的性能表现(在 45 项任务中超越 Tx-LLM),在 50 项任务中展现出了优于或相当于专用模型的性能表现(在 26 项任务中超越专用模型)。有关详细结果,请参阅 TxGemma 论文


用于发掘深度见解的对话式 AI

TxGemma 还提供 9B 和 27B“对话”版本。这些模型的训练内容中添加了一般指令调整数据,这使他们能够解释自己的推理、回答复杂的问题并参与多轮讨论。例如,研究人员可以询问 TxGemma-Chat 为什么它预测某个特定分子是有毒的,并得到基于该分子结构的解释。与 TxGemma-Predict 相比,这种对话能力对治疗任务的原始表现影响较小。


通过微调扩展 TxGemma 的功能

作为发布内容的一部分,我们还将提供微调示例 Colab 笔记,该笔记可为开发人员展示根据自己的治疗数据和任务调整 TxGemma 的方法。该笔记使用 TrialBench 数据集,展示了如何微调 TxGemma 以预测临床试验中的不良事件。通过微调,研究人员可利用其专有数据创建适合其独特研究需求的模型,这可能会带来更为准确的预测,从而帮助研究人员评估潜在新疗法的安全性或有效性。


使用 Agentic-Tx 编排工作流,以推动高级治疗发现

除了单步预测之外,我们还演示了如何将 TxGemma 集成到代理系统中,以便解决更复杂的研究问题。标准语言模型通常难以完成需要最新外部知识或多步推理的任务。为了解决这个问题,我们开发了 Agentic-Tx,这是一种由 Gemini 2.0 Pro 提供支持的以疗法为重点的代理系统。Agentic-Tx 配备了 18 种工具,包括:

  • 将 TxGemma 作为多步骤推理工具

  • PubMed、维基百科和网络上的一般搜索工具

  • 特定分子工具

  • 基因和蛋白质工具

Humanity's Last ExamChemBench 等基准测试中,Agentic-Tx 在对推理要求极高的化学和生物任务中取得了优异的成绩。我们将在发布内容中提供相关 Colab 笔记,以演示如何使用 Agentic-Tx 来编排复杂工作流并回答多步骤研究问题。

开始使用 TxGemma

您可立即前往 Vertex AI Model GardenHugging Face 访问 TxGemma。我们鼓励您探索该模型,尝试关于推理微调代理的 Colab 笔记,并分享您的反馈!作为开放模型,TxGemma 本就以不断提升为初衷。研究人员可以根据其数据针对特定疗法开发用例对该模型进行微调。我们期待了解整个社区将如何使用 TxGemma 来加速治疗发现。


致谢

该项目的主要贡献者包括:Eric Wang、Samuel Schmidgall、Fan Zhang、Paul F. Jaeger、Rory Pilgrim 和 Tiffany Chen。我们还想向 Shravya Shetty、Dale Webster、Avinatan Hassidim、Yossi Matias、Yun Liu、Rachelle Sico、Phoebe Kirk、Fereshteh Mahvar、Can "John" Kirmizi、Fayaz Jamil、Tim Thelin、Glenn Cameron、Victor Cotruta、David Fleet、Jon Shlens、Omar Sanseviero、Joe Fernandez 和 Joëlle Barral 表示感谢,他们在整个项目中提供了各种反馈和支持。