Desde su primer lanzamiento, los modelos Gemma se descargaron más de 100 millones de veces y la comunidad creó más de 60,000 variaciones para todo tipo de casos de uso. Nos complace presentar Gemma 3, nuestra versión más capaz y avanzada de la familia de modelos de código abierto Gemma, que se basa en el éxito de las versiones anteriores. Escuchamos los comentarios de la comunidad y agregamos las funciones más solicitadas, como contexto más extenso y multimodalidad, entre otras.
Link to Youtube Video (visible only when JS is disabled)
Gemma 3 presenta la multimodalidad, admite entradas de lenguaje-visión y salidas de texto. Procesa ventanas de contexto de hasta 128,000 tokens, entiende más de 140 idiomas y ofrece capacidades mejoradas de matemáticas, razonamiento y chat, incluidos resultados estructurados y llamadas a funciones. Gemma 3 está disponible en cuatro tamaños (1B, 4B, 12B y 27B) con modelos preentrenados, que se pueden ajustar según tus propios casos de uso y dominios, y versiones ajustadas para instrucciones de uso general.
Los procesos previos y posteriores al entrenamiento de Gemma se optimizaron mediante una combinación de destilación, aprendizaje por refuerzo y fusión de modelos. Este enfoque genera un mejor rendimiento en matemáticas, codificación y seguimiento de instrucciones. Gemma 3 utiliza un nuevo tokenizador a fin de brindar un mejor soporte multilingüe para más de 140 idiomas y se entrenó con tokens 2T para 1B, 4T para 4B, 12T para 12B y 14T para 27B, en TPU de Google con el marco de trabajo JAX.
Para el posentrenamiento, Gemma 3 utiliza 4 componentes:
Estas actualizaciones mejoraron en gran medida las capacidades de matemáticas, codificación y seguimiento de instrucciones del modelo, que se convirtió en el mejor modelo compacto de código abierto en LMArena, donde obtuvo una puntuación de 1338.
Las versiones de Gemma 3 que responden a instrucciones utilizan el mismo formato de diálogo que Gemma 2, por lo que no necesitas actualizar tus herramientas para obtener la última versión y utilizar entradas de solo texto. En el caso de entradas de imágenes, Gemma 3 permite especificar imágenes intercaladas con texto.
<bos><start_of_turn>user
knock knock<end_of_turn>
<start_of_turn>model
who is there<end_of_turn>
<start_of_turn>user
Gemma<end_of_turn>
<start_of_turn>model
Gemma who?<end_of_turn>
Ejemplo de imagen intercalada
<bos><start_of_turn>user
Image A: <start_of_image>
Image B: <start_of_image>
Label A: water lily
Label B:<end_of_turn>
<start_of_turn>model
Desert rote<end_of_turn>
Gemma 3 tiene un codificador de visión integrado basado en SigLIP. El modelo de visión de Gemma 3, que no se modificó durante el entrenamiento, es el mismo en sus diferentes tamaños (4B, 12B y 27B). Gracias a esto, Gemma puede usar imágenes y videos como entradas, lo que le permite analizar imágenes, responder preguntas sobre una imagen, comparar imágenes, identificar objetos e incluso responder sobre el texto que está dentro de una imagen. Aunque el modelo se creó originalmente para trabajar con imágenes de 896 x 896 píxeles, se utiliza un nuevo algoritmo de ventana adaptativa para segmentar las imágenes de entrada, lo que permite a Gemma 3 trabajar con imágenes de alta resolución y no cuadradas.
ShieldGemma 2 es un clasificador de seguridad de imágenes 4B basado en Gemma 3. Genera etiquetas en todas las categorías clave de seguridad, lo que permite la moderación de seguridad de imágenes sintéticas (de modelos de generación de imágenes) e imágenes naturales (que podrían ser el filtro de entrada de un modelo de lenguaje-visión como Gemma 3). Obtén más información sobre ShieldGemma 2.
Nos sorprende siempre el ingenio de la comunidad de Gemma y el crecimiento explosivo del Gemmaverso. Desde laboratorios de investigación pioneros en nuevas técnicas de ajuste, como el método SimPO desarrollado por Princeton NLP, que optimiza directamente las preferencias humanas sin un modelo de referencia; o el entrenamiento de INSAIT de LLM de vanguardia para búlgaros, hasta desarrolladores que entrenan a Gemma en modalidades completamente nuevas, como lo hizo Nexa AI con OmniAudio. Tenemos muchas ganas de ver tus próximos avances.
¿Tienes todo listo para explorar el potencial de Gemma 3 hoy? Aquí te mostramos cómo hacerlo: