Presentamos TxGemma: modelos de código abierto para mejorar el desarrollo de terapias

MAR 25, 2025
Shekoofeh Azizi Staff Research Scientist

El desarrollo de una nueva terapia es arriesgado, notoriamente lento y puede costar miles de millones de dólares. El 90% de los medicamentos no pasan los ensayos de fase 1. Hoy nos complace lanzar TxGemma, una colección de modelos de código abierto diseñados para mejorar la eficiencia del desarrollo terapéutico aprovechando el poder de los modelos de lenguaje grandes.

Sobre la base de Gemma, de Google DeepMind, una familia de modelos de código abierto ligeros y de última generación, TxGemma está específicamente capacitado para comprender y predecir las propiedades de las entidades terapéuticas a lo largo de todo el proceso de descubrimiento, desde identificar objetivos prometedores hasta ayudar a predecir los resultados de los ensayos clínicos. De esta manera, se puede acortar el tiempo que pasa desde el laboratorio hasta la toma del medicamento, y reducir los costos asociados con los métodos tradicionales.


De Tx-LLM a TxGemma

En octubre pasado, presentamos Tx-LLM, un modelo de lenguaje capacitado para una variedad de tareas terapéuticas relacionadas con el desarrollo de fármacos. Ante un gran interés por utilizar y afinar este modelo para aplicaciones terapéuticas, desarrollamos su sucesor de código abierto a escala práctica, TxGemma, que lanzamos hoy para que los desarrolladores puedan adaptarlo a sus propios datos y tareas terapéuticos.

Los modelos de TxGemma, ajustados en función de Gemma 2 con 7 millones de ejemplos de entrenamiento, son modelos de código abierto diseñados para la predicción y el análisis de datos terapéuticos conversacionales. Estos modelos están disponibles en tres tamaños: 2B, 9B y 27B. Cada tamaño incluye una versión de “predicción”, diseñada específicamente para tareas determinadas extraídas de Therapeutic Data Commons, por ejemplo, predecir si una molécula es tóxica.

Estas tareas comprenden lo siguiente:

  • Clasificación (p. ej., ¿cruzará esta molécula la barrera hematoencefálica?)

  • Regresión (p. ej., predecir la afinidad de unión de un fármaco)

  • Generación (p. ej., dado el producto de alguna reacción, generar el conjunto de reactivos)

El modelo de TxGemma más grande (versión 27B Predict) ofrece un rendimiento sólido. No solo es mejor que nuestro modelo generalista de vanguardia anterior (Tx-LLM) o aproximadamente igual a este en casi todas las tareas, sino que también rivaliza o supera a muchos modelos que se diseñaron específicamente para tareas individuales. En concreto, tiene un rendimiento comparable a nuestro modelo anterior o lo supera en 64 de 66 tareas (lo supera en 45), y lo mismo ocurre en comparación con modelos especializados en 50 de las tareas (los supera en 26). Consulta el documento de TxGemma para obtener resultados detallados.


IA conversacional para obtener conocimientos más profundos

TxGemma también incluye las versiones de “chat” de 9B y 27B. En el entrenamiento de estos modelos, se agregan datos de ajuste de instrucciones generales, lo que les permite explicar su razonamiento, responder preguntas complejas y participar en discusiones de varios turnos. Por ejemplo, un investigador podría preguntar a TxGemma-Chat por qué predijo que una molécula en particular era tóxica y recibir una explicación basada en la estructura de la molécula. Esta capacidad conversacional tiene un pequeño costo para el rendimiento bruto en tareas terapéuticas en comparación con TxGemma-Predict.


Ampliación de las capacidades de TxGemma a través del ajuste

Como parte del lanzamiento, incluimos un notebook de Colab de ejemplo de ajuste, en el que se demuestra cómo los desarrolladores pueden adaptar TxGemma a sus propios datos y tareas terapéuticos. Este notebook utiliza el conjunto de datos TrialBench para mostrar cómo se puede ajustar TxGemma a fin de predecir eventos adversos en ensayos clínicos. El ajuste permite a los investigadores aprovechar sus datos patentados para crear modelos adaptados a sus necesidades de investigación únicas, lo que posiblemente genere predicciones aún más precisas que ayuden a los investigadores a evaluar qué tan segura o efectiva podría ser una nueva terapia potencial.


Orquestación de flujos de trabajo para el descubrimiento terapéutico avanzado con Agentic-Tx

Más allá de las predicciones de un solo paso, demostramos cómo TxGemma se puede integrar en sistemas agénticos para abordar problemas de investigación más complejos. Los modelos de lenguaje estándar suelen tener dificultades con las tareas que requieren conocimientos externos actualizados o razonamiento de varios pasos. Para abordar este problema, desarrollamos Agentic-Tx, un sistema agéntico centrado en la creación de terapias impulsado por Gemini 2.0 Pro. Agentic-Tx cuenta con 18 herramientas, entre las que se incluyen las siguientes:

  • TxGemma como herramienta para el razonamiento de varios pasos

  • Herramientas generales de búsqueda de PubMed, Wikipedia y la Web

  • Herramientas moleculares específicas

  • Herramientas de genes y proteínas

Agentic-Tx consigue resultados de vanguardia en tareas de química y biología con razonamiento intensivo, a partir de puntos de referencia que incluyen Humanity's Last Exam y ChemBench. Incluimos un notebook de Colab con nuestra versión para demostrar cómo Agentic-Tx se puede usar para orquestar flujos de trabajo complejos y responder preguntas de investigación de varios pasos.

Primeros pasos con TxGemma

Puedes acceder a TxGemma tanto en Vertex AI Model Garden como en Hugging Face hoy mismo. Te alentamos a explorar los modelos, probar los notebooks de Colab sobre inferencias, ajustes y agentes, y a que compartas tus comentarios. Como es un modelo de código abierto, TxGemma se diseñó para que se lo pueda seguir mejorando: los investigadores pueden ajustarlo con sus datos para casos de uso de desarrollo terapéutico específicos. Nos entusiasma ver cómo la comunidad utilizará TxGemma para acelerar el descubrimiento de nuevas terapias.


Agradecimientos

Los principales colaboradores de este proyecto son Eric Wang, Samuel Schmidgall, Fan Zhang, Paul F. Jaeger, Rory Pilgrim y Tiffany Chen. También agradecemos a Shravya Shetty, Dale Webster, Avinatan Hassidim, Yossi Matias, Yun Liu, Rachelle Sico, Phoebe Kirk, Fereshteh Mahvar, Can “John” Kirmizi, Fayaz Jamil, Tim Thelin, Glenn Cameron, Victor Cotruta, David Fleet, Jon Shlens, Omar Sanseviero, Joe Fernández y Joëlle Barral por sus comentarios y su apoyo a lo largo de este proyecto.