Apresentamos o TxGemma: modelos abertos para melhorar o desenvolvimento terapêutico

MAR 25, 2025
Shekoofeh Azizi Staff Research Scientist

Desenvolver uma nova terapêutica é algo arriscado, notoriamente demorado e que pode custar bilhões de dólares. Noventa por cento dos candidatos a medicamentos são reprovados após os testes de fase 1. Hoje, temos o orgulho de lançar o TxGemma, uma coleção de modelos abertos projetados para melhorar a eficiência do desenvolvimento terapêutico por meio do poder dos modelos de linguagem grandes.

Criado com base no Gemma do Google DeepMind, uma família de modelos abertos leves e de última geração, o TxGemma é treinado especificamente para entender e prever as propriedades de entidades terapêuticas ao longo de todo o processo de descoberta, desde a identificação de candidatos promissores até a previsão de resultados de ensaios clínicos. Isso pode reduzir o tempo entre o laboratório e a aplicação clínica e também os custos associados aos métodos tradicionais.


Do Tx-LLM ao TxGemma

No último mês de outubro, introduzimos o Tx-LLM, um modelo de linguagem treinado para uma variedade de tarefas terapêuticas relacionadas ao desenvolvimento de medicamentos. Após um enorme interesse no uso e ajuste desse modelo para aplicações terapêuticas, desenvolvemos seu sucessor aberto em uma escala prática: o TxGemma, que é lançado hoje para que os desenvolvedores adaptem seus dados terapêuticos e suas tarefas.

Os modelos TxGemma, ajustados a partir do Gemma 2 usando 7 milhões de exemplos de treinamento, são modelos abertos projetados para previsão e análise conversacional de dados terapêuticos. Esses modelos estão disponíveis em três tamanhos: 2B, 9B e 27B. Cada tamanho inclui uma versão de "previsão", especificamente adaptada para tarefas de afunilamento extraídas do Therapeutic Data Commons para, por exemplo, prever se uma molécula é tóxica.

Essas tarefas abrangem:

  • Classificação (por exemplo: essa molécula cruzará a barreira hematoencefálica?).

  • Regressão (por exemplo: previsão da afinidade de ligação de um medicamento).

  • Geração (por exemplo: dado o produto de alguma reação, gere o conjunto de reagentes).

O maior modelo TxGemma (versão de previsão 27B) tem um desempenho sólido. Ele não só é melhor que nosso modelo generalista de última geração anterior (Tx-LLM), ou quase igual a ele, em praticamente todas as tarefas, como também se equipara a ou supera muitos modelos projetados especificamente para tarefas únicas. Especificamente, ele supera ou tem desempenho comparável ao do nosso modelo anterior em 64 de 66 tarefas (superando-o em 45 delas) e faz o mesmo em relação a modelos especializados em 50 das tarefas (superando-os em 26 delas). Consulte o artigo sobre o TxGemma para ver os resultados detalhados.


IA conversacional para insights mais profundos

O TxGemma também inclui versões de "chat" 9B e 27B. Esses modelos têm dados de ajuste de instruções gerais adicionados a seu treinamento, o que permite que eles expliquem seu raciocínio, respondam a perguntas complexas e participem de discussões com várias voltas. Por exemplo, um pesquisador poderia perguntar ao TxGemma-Chat por que ele previu que uma molécula em particular seria tóxica e receber uma explicação com base na estrutura da molécula. Essa capacidade de conversação tem um pequeno custo em termos de desempenho bruto em tarefas terapêuticas em comparação com o TxGemma-Predict.


Extensão dos recursos do TxGemma por meio de ajuste

Como parte do lançamento, incluímos um notebook do Colab de exemplo de ajuste que demonstra como os desenvolvedores podem adaptar o TxGemma a seus próprios dados terapêuticos e suas tarefas. Esse notebook usa o conjunto de dados do TrialBench para mostrar como ajustar o TxGemma para prever eventos adversos em ensaios clínicos. O ajuste permite que os pesquisadores aproveitem seus dados proprietários para criar modelos adaptados às suas necessidades exclusivas de pesquisa, possivelmente levando a previsões ainda mais precisas que ajudam os pesquisadores a avaliar a segurança e eficácia de um novo tratamento em potencial.


Orquestração de fluxos de trabalho para descoberta terapêutica avançada com o Agentic-Tx

Além de previsões em uma só etapa, estamos demonstrando como o TxGemma pode ser integrado a sistemas agênticos para lidar com problemas de pesquisa mais complexos. Os modelos de linguagem padrão muitas vezes têm dificuldades com tarefas que exigem conhecimento externo atualizado ou raciocínio em várias etapas. Para resolver isso, desenvolvemos o Agentic-Tx, um sistema agêntico focado em terapêutica que é habilitado pelo Gemini 2.0 Pro. O Agentic-Tx é equipado com 18 ferramentas, incluindo:

  • O TxGemma como ferramenta para raciocínio em várias etapas.

  • Ferramentas de pesquisa geral do PubMed, da Wikipedia e da Web.

  • Ferramentas moleculares específicas.

  • Ferramentas de genes e proteínas.

O Agentic-Tx obtém resultados de última geração em tarefas de química e biologia com raciocínio intensivo nos comparativos de mercado, incluindo Humanity's Last Exam e ChemBench. Estamos incluindo um notebook do Colab em nosso lançamento para demonstrar como o Agentic-Tx pode ser usado para orquestrar fluxos de trabalho complexos e responder a perguntas de pesquisa em várias etapas.

Comece a usar o TxGemma

Você pode acessar o TxGemma no Vertex AI Model Garden e na Hugging Face hoje mesmo. Incentivamos você a explorar os modelos, experimentar a inferência, o ajuste e os notebooks do Colab de agente e compartilhar seu feedback! Como um modelo aberto, o TxGemma foi projetado para receber melhorias, e os pesquisadores podem ajustá-lo com seus dados para casos de uso específicos de desenvolvimento terapêutico. Mal podemos esperar para ver como a comunidade usará o TxGemma para acelerar a descoberta terapêutica.


Agradecimentos

Alguns colaboradores imprescindíveis para o projeto: Eric Wang, Samuel Schmidgall, Fan Zhang, Paul F. Jaeger, Rory Pilgrim e Tiffany Chen. Agradecemos também a Shravya Shetty, Dale Webster, Avinatan Hassidim, Yossi Matias, Yun Liu, Rachelle Sico, Phoebe Kirk, Fereshteh Mahvar, Can "John" Kirmizi, Fayaz Jamil, Tim Thelin, Glenn Cameron, Victor Cotruta, David Fleet, Jon Shlens, Omar Sanseviero, Joe Fernandez e Joëlle Barral pelo feedback e apoio ao longo do projeto.