Presentamos PaliGemma 2 Mix: un modelo de lenguaje-visión para varias tareas

19 DE FEBRERO DE 2025

Omar Sanseviero Staff Developer Relations Engineer

Andreas Steiner Staff Software Engineer

En diciembre, lanzamos PaliGemma 2, un modelo de lenguaje-visión mejorado de la familia Gemma. Se incluyeron puntos de control preentrenados de diferentes tamaños (parámetros 3B, 10B y 28B) que pueden definirse fácilmente en una amplia variedad de dominios y tareas de lenguaje-visión, como segmentar imágenes, subtitular videos cortos, responder preguntas científicas y hacer tareas relacionadas con texto con alto rendimiento.

Ahora, estamos encantados de anunciar el lanzamiento de los puntos de control de PaliGemma 2 Mix. PaliGemma 2 Mix son modelos ajustados a una combinación de tareas que permiten explorar directamente las capacidades del modelo y usarlo de forma inmediata para casos de uso comunes.

¿Qué novedades incluye PaliGemma 2 Mix?

Varias tareas con un modelo: PaliGemma 2 Mix puede resolver tareas como subtitulado de videos cortos y largos, reconocimiento óptico de caracteres (OCR), respuestas a preguntas en imágenes, detección de objetos y segmentación.

Tamaños fáciles de usar para desarrolladores: Usa el mejor modelo para tus necesidades gracias a los diferentes tamaños (parámetros 3B, 10B y 28B) y resoluciones (224 px y 448 px).

Usa tu framework preferido: Aprovecha tus herramientas y frameworks favoritos, incluidos Hugging Face Transformers, Keras, PyTorch, JAX y Gemma.cpp.

Si ya usabas los puntos de control de mezcla de PaliGemma originales, puedes actualizar directamente a PaliGemma 2 sin necesidad de hacer ningún cambio. El modelo realiza diferentes tareas dependiendo de la instrucción. Puedes revisar la sintaxis de las instrucciones para diferentes tareas en la documentación oficial y obtener más información sobre cómo se desarrolló PaliGemma 2 en nuestro informe técnico.

Detección

Tarea: Detección (PaliGemma-2-3b-mix-224)
Entrada: "detectar android\n"

$Input - "detect android\n"$

Resultado:

Result in PaliGemma 2 Mix: A large, green Android figure stands on a white platform, enclosed by a red box. The word "android" is written in red above the figure.

Detección de varios objetos

Tarea: Detección de varios objetos (PaliGemma-2-3b-mix-224)
Entrada: "detectar silla ; mesa\n"

Multiple object detection of items in a dining room

Resultado:

A wooden table and chair are in the foreground. Additional tables and chairs can be seen in the background within a room with a bee patterned wall and wooden floors. Labeled boxes highlight the furniture with the text "table" and "chair."

Tarea: Detección de varios objetos (PaliGemma-2-3b-mix-224)
Entrada: "detectar comida ; tazón\n"

Plates and bowls of food on a wooden table

Resultado:

Plates and bowls of food on a wooden table labeled with boxes that accurately identify "plate", "bowl" and "food"

Reconocimiento óptico de caracteres (OCR)

Tarea: Detección de varios objetos (PaliGemma-2-3b-mix-224)
Entrada: "ocr\n"

Resultado:

Japanese Kanji reads: Downlight, Dining Room, Kitchen, Living Room, Bathroom/Dressing Room]

Segmentación

Tarea: Segmentación (PaliGemma-2-3b-mix-224) [Imagen generada por ImageFX]
Entrada: "segmentar gato\n"

Image of a cat looking at the camera behind a wooden sign that reads 'Hello PaliGemma 2' generated by ImageFX

Resultado:

highlighted image of a cat looking at the camera behind a wooden sign that reads 'Hello PaliGemma 2' generated by ImageFX

Respuestas a preguntas

Tarea: Respuestas a preguntas (PaliGemma2-mix-3b-448) [Imagen generada por ImageFX]
Entrada: "responder es ¿dónde está la vaca?\n"

A cow standing on the beach next to a yellow sign that reads 'Warning Dangerous Rip Current' with an illustration of a large wave breaking.

Resultado: playa

Subtitulado

Entrada: "subtitular es\n"

Resultado: una vaca de pie en una playa, junto a un letrero que advierte sobre una corriente de resaca peligrosa.

Reconocimiento óptico de caracteres (OCR)

Resultado:

ADVERTENCIA

PELIGROSA

CORRIENTE DE RESACA

Detección

Entrada: "detectar vaca\n"

Resultado:

A cow standing on the beach next to a yellow sign that reads 'Warning Dangerous Rip Current' with an illustration of a large wave breaking. A red box outlines the cow, with a label that reads "cow"

Segmentación

Input: “segmentar vaca\n”

Resultado:

A highlighted cow standing on the beach next to a yellow sign that reads 'Warning Dangerous Rip Current' with an illustration of a large wave breaking.

Subtitulado

Tarea: Subtitulado (PaliGemma 2-mix-10b-448)
Entrada: "subtitular es\n"

Resultado: una vaca de pie en una playa, junto a un letrero de advertencia.

Reconocimiento óptico de caracteres (OCR)

Tarea: "ocr\n"

Resultado:

ADVERTENCIA PELIGROSA

CORRIENTE DE RESACA

Empieza hoy mismo

¿Quieres descubrir el potencial de PaliGemma 2? Aquí te mostramos cómo explorar las funciones del modelo Mix:

Prueba el modelo Mix con unos pocos clics: Explora las funciones del modelo Mix directamente en la demostración de Hugging Face.

Descarga los modelos: Accede a los pesos de los modelos Mix en Kaggle y Hugging Face.

Aprende a ejecutar el modelo: Prueba el cuaderno de inferencias de Keras directamente en Google Colab o localmente.

Implementa y ajusta con unos pocos clics: Usa PaliGemma 2 Mix directamente en Vertex Model Garden.

Si bien PaliGemma 2 Mix tiene un gran rendimiento en múltiples tareas, obtendrás mejores resultados si ajustas PaliGemma 2 en tu propia tarea o dominio. Para aprender a hacerlo, consulta nuestra documentación completa y nuestros cuadernos de ejemplo oficiales para Keras y JAX, o bien usa el ejemplo de transformadores de Hugging Face. ¡Ansiamos ver cómo usas este recurso!

Publicaciones relacionadas

Gemma AI Announcements

Presentamos Gemma 3n: guía para desarrolladores

26 DE JUNIO DE 2025

Gemini AI How-To Guides Announcements

Conversational image segmentation with Gemini 2.5

21 DE JULIO DE 2025

Gemini AI Announcements

Gemini 2.5 Flash-Lite is now stable and generally available

22 DE JULIO DE 2025

Gemma AI Announcements

T5Gemma: una nueva colección de modelos Gemma codificadores-decodificadores

9 DE JULIO DE 2025