Presentamos Gemma 3: la guía para desarrolladores

MAR 12, 2025
Omar Sanseviero Staff Developer Relations Engineer
Philipp Schmid Developer Relations Engineer

Desde su primer lanzamiento, los modelos Gemma se descargaron más de 100 millones de veces y la comunidad creó más de 60,000 variaciones para todo tipo de casos de uso. Nos complace presentar Gemma 3, nuestra versión más capaz y avanzada de la familia de modelos de código abierto Gemma, que se basa en el éxito de las versiones anteriores. Escuchamos los comentarios de la comunidad y agregamos las funciones más solicitadas, como contexto más extenso y multimodalidad, entre otras.


¿Cuáles son las novedades de Gemma?

Link to Youtube Video (visible only when JS is disabled)

Gemma 3 presenta la multimodalidad, admite entradas de lenguaje-visión y salidas de texto. Procesa ventanas de contexto de hasta 128,000 tokens, entiende más de 140 idiomas y ofrece capacidades mejoradas de matemáticas, razonamiento y chat, incluidos resultados estructurados y llamadas a funciones. Gemma 3 está disponible en cuatro tamaños (1B, 4B, 12B y 27B) con modelos preentrenados, que se pueden ajustar según tus propios casos de uso y dominios, y versiones ajustadas para instrucciones de uso general.

Comparison chart - Gemma models

¿Cómo se creó Gemma?

Los procesos previos y posteriores al entrenamiento de Gemma se optimizaron mediante una combinación de destilación, aprendizaje por refuerzo y fusión de modelos. Este enfoque genera un mejor rendimiento en matemáticas, codificación y seguimiento de instrucciones. Gemma 3 utiliza un nuevo tokenizador a fin de brindar un mejor soporte multilingüe para más de 140 idiomas y se entrenó con tokens 2T para 1B, 4T para 4B, 12T para 12B y 14T para 27B, en TPU de Google con el marco de trabajo JAX.

Para el posentrenamiento, Gemma 3 utiliza 4 componentes:

  • Destilación de un modelo de instrucción más grande en los puntos de control preentrenados de Gemma 3.

  • Aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF) para alinear las predicciones del modelo con las preferencias humanas.

  • Aprendizaje por refuerzo a partir de la retroalimentación automática (RLMF) para mejorar el razonamiento matemático.

  • Aprendizaje por refuerzo a partir de la retroalimentación de ejecución (RLEF) para mejorar las capacidades de codificación.

Estas actualizaciones mejoraron en gran medida las capacidades de matemáticas, codificación y seguimiento de instrucciones del modelo, que se convirtió en el mejor modelo compacto de código abierto en LMArena, donde obtuvo una puntuación de 1338.

Graph showing a comparison of Model performance v. Size

Las versiones de Gemma 3 que responden a instrucciones utilizan el mismo formato de diálogo que Gemma 2, por lo que no necesitas actualizar tus herramientas para obtener la última versión y utilizar entradas de solo texto. En el caso de entradas de imágenes, Gemma 3 permite especificar imágenes intercaladas con texto.


Ejemplo de texto conversacional

<bos><start_of_turn>user
knock knock<end_of_turn>
<start_of_turn>model
who is there<end_of_turn>
<start_of_turn>user
Gemma<end_of_turn>
<start_of_turn>model
Gemma who?<end_of_turn>

Ejemplo de imagen intercalada

<bos><start_of_turn>user
Image A: <start_of_image>
Image B: <start_of_image>
 
Label A: water lily
Label B:<end_of_turn>
<start_of_turn>model
Desert rote<end_of_turn>

Multimodalidad

Gemma 3 tiene un codificador de visión integrado basado en SigLIP. El modelo de visión de Gemma 3, que no se modificó durante el entrenamiento, es el mismo en sus diferentes tamaños (4B, 12B y 27B). Gracias a esto, Gemma puede usar imágenes y videos como entradas, lo que le permite analizar imágenes, responder preguntas sobre una imagen, comparar imágenes, identificar objetos e incluso responder sobre el texto que está dentro de una imagen. Aunque el modelo se creó originalmente para trabajar con imágenes de 896 x 896 píxeles, se utiliza un nuevo algoritmo de ventana adaptativa para segmentar las imágenes de entrada, lo que permite a Gemma 3 trabajar con imágenes de alta resolución y no cuadradas.

Gemma 3 Multimodality example
Entrada: Tengo frío. ¿Con qué botón se sube la temperatura?
Gemma 3 multimodality - output example
Según la imagen, el botón que posiblemente sube la temperatura es 暖房 (Danbou). “暖房” significa “calefacción” en japonés. Es el botón que se debe presionar para activar la función de calefacción en el aire acondicionado o sistema de control de climatización. Con el botón que tiene el signo más (+), podrías subir la temperatura después de seleccionar el modo de calefacción.

ShieldGemma 2

ShieldGemma 2 es un clasificador de seguridad de imágenes 4B basado en Gemma 3. Genera etiquetas en todas las categorías clave de seguridad, lo que permite la moderación de seguridad de imágenes sintéticas (de modelos de generación de imágenes) e imágenes naturales (que podrían ser el filtro de entrada de un modelo de lenguaje-visión como Gemma 3). Obtén más información sobre ShieldGemma 2.


¿Qué desarrollarás?

Nos sorprende siempre el ingenio de la comunidad de Gemma y el crecimiento explosivo del Gemmaverso. Desde laboratorios de investigación pioneros en nuevas técnicas de ajuste, como el método SimPO desarrollado por Princeton NLP, que optimiza directamente las preferencias humanas sin un modelo de referencia; o el entrenamiento de INSAIT de LLM de vanguardia para búlgaros, hasta desarrolladores que entrenan a Gemma en modalidades completamente nuevas, como lo hizo Nexa AI con OmniAudio. Tenemos muchas ganas de ver tus próximos avances.


Empieza a usar Gemma 3 hoy mismo

¿Tienes todo listo para explorar el potencial de Gemma 3 hoy? Aquí te mostramos cómo hacerlo:

  • Experimenta de forma directa: usa Google AI Studio para probar Gemma 3 con solo un par de clics.

  • Aprende e integra: sumérgete en nuestro informe técnico y la documentación completa para integrar rápidamente Gemma en tus proyectos, o comienza con nuestra guía de inferencia o intenta ajustar tus modelos con un conjunto de datos personalizado.