Presentamos PaliGemma 2 Mix: un modelo de lenguaje-visión para varias tareas

FEB 19, 2025
Omar Sanseviero Staff Developer Relations Engineer
Andreas Steiner Staff Software Engineer

En diciembre, lanzamos PaliGemma 2, un modelo de lenguaje-visión mejorado de la familia Gemma. Se incluyeron puntos de control preentrenados de diferentes tamaños (parámetros 3B, 10B y 28B) que pueden definirse fácilmente en una amplia variedad de dominios y tareas de lenguaje-visión, como segmentar imágenes, subtitular videos cortos, responder preguntas científicas y hacer tareas relacionadas con texto con alto rendimiento.

Ahora, estamos encantados de anunciar el lanzamiento de los puntos de control de PaliGemma 2 Mix. PaliGemma 2 Mix son modelos ajustados a una combinación de tareas que permiten explorar directamente las capacidades del modelo y usarlo de forma inmediata para casos de uso comunes.


¿Qué novedades incluye PaliGemma 2 Mix?

  • Varias tareas con un modelo: PaliGemma 2 Mix puede resolver tareas como subtitulado de videos cortos y largos, reconocimiento óptico de caracteres (OCR), respuestas a preguntas en imágenes, detección de objetos y segmentación.

  • Tamaños fáciles de usar para desarrolladores: Usa el mejor modelo para tus necesidades gracias a los diferentes tamaños (parámetros 3B, 10B y 28B) y resoluciones (224 px y 448 px).

Si ya usabas los puntos de control de mezcla de PaliGemma originales, puedes actualizar directamente a PaliGemma 2 sin necesidad de hacer ningún cambio. El modelo realiza diferentes tareas dependiendo de la instrucción. Puedes revisar la sintaxis de las instrucciones para diferentes tareas en la documentación oficial y obtener más información sobre cómo se desarrolló PaliGemma 2 en nuestro informe técnico.


Detección

  • Tarea: Detección (PaliGemma-2-3b-mix-224)
  • Entrada: "detectar android\n"
Input - "detect android\n"

Resultado:

Result in PaliGemma 2 Mix: A large, green Android figure stands on a white platform, enclosed by a red box. The word "android" is written in red above the figure.

Detección de varios objetos

  • Tarea: Detección de varios objetos (PaliGemma-2-3b-mix-224)
  • Entrada: "detectar silla ; mesa\n"
Multiple object detection of items in a dining room

Resultado:

A wooden table and chair are in the foreground. Additional tables and chairs can be seen in the background within a room with a bee patterned wall and wooden floors. Labeled boxes highlight the furniture with the text "table" and "chair."
  • Tarea: Detección de varios objetos (PaliGemma-2-3b-mix-224)
  • Entrada: "detectar comida ; tazón\n"
Plates and bowls of food on a wooden table

Resultado:

Plates and bowls of food on a wooden table labeled with boxes that accurately identify "plate", "bowl" and "food"

Reconocimiento óptico de caracteres (OCR)

  • Tarea: Detección de varios objetos (PaliGemma-2-3b-mix-224)
  • Entrada: "ocr\n"
Lighting labels in Japanese kanji

Resultado:

Japanese Kanji reads: Downlight, Dining Room, Kitchen, Living Room, Bathroom/Dressing Room]

Segmentación

  • Tarea: Segmentación (PaliGemma-2-3b-mix-224) [Imagen generada por ImageFX]
  • Entrada: "segmentar gato\n"
Image of a cat looking at the camera behind a wooden sign that reads 'Hello PaliGemma 2' generated by ImageFX

Resultado:

highlighted image of a cat looking at the camera behind a wooden sign that reads 'Hello PaliGemma 2' generated by ImageFX

Respuestas a preguntas

  • Tarea: Respuestas a preguntas (PaliGemma2-mix-3b-448) [Imagen generada por ImageFX]
  • Entrada: "responder es ¿dónde está la vaca?\n"
A cow standing on the beach next to a yellow sign that reads 'Warning Dangerous Rip Current' with an illustration of a large wave breaking.

Resultado: playa


Subtitulado

  • Entrada: "subtitular es\n"
A cow standing on the beach next to a yellow sign that reads 'Warning Dangerous Rip Current' with an illustration of a large wave breaking.

Resultado: una vaca de pie en una playa, junto a un letrero que advierte sobre una corriente de resaca peligrosa.


Reconocimiento óptico de caracteres (OCR)

A cow standing on the beach next to a yellow sign that reads 'Warning Dangerous Rip Current' with an illustration of a large wave breaking.

Resultado:

ADVERTENCIA

PELIGROSA

CORRIENTE DE RESACA


Detección

  • Entrada: "detectar vaca\n"
A cow standing on the beach next to a yellow sign that reads 'Warning Dangerous Rip Current' with an illustration of a large wave breaking.

Resultado:

A cow standing on the beach next to a yellow sign that reads 'Warning Dangerous Rip Current' with an illustration of a large wave breaking. A red box outlines the cow, with a label that reads "cow"

Segmentación

  • Input: “segmentar vaca\n”
A cow standing on the beach next to a yellow sign that reads 'Warning Dangerous Rip Current' with an illustration of a large wave breaking.

Resultado:

A highlighted cow standing on the beach next to a yellow sign that reads 'Warning Dangerous Rip Current' with an illustration of a large wave breaking.

Subtitulado

  • Tarea: Subtitulado (PaliGemma 2-mix-10b-448)
  • Entrada: "subtitular es\n"
A cow standing on the beach next to a yellow sign that reads 'Warning Dangerous Rip Current' with an illustration of a large wave breaking.

Resultado: una vaca de pie en una playa, junto a un letrero de advertencia.

Reconocimiento óptico de caracteres (OCR)

  • Tarea: "ocr\n"
A cow standing on the beach next to a yellow sign that reads 'Warning Dangerous Rip Current' with an illustration of a large wave breaking.

Resultado:

ADVERTENCIA PELIGROSA

CORRIENTE DE RESACA


Empieza hoy mismo

¿Quieres descubrir el potencial de PaliGemma 2? Aquí te mostramos cómo explorar las funciones del modelo Mix:

  • Aprende a ejecutar el modelo: Prueba el cuaderno de inferencias de Keras directamente en Google Colab o localmente.

  • Implementa y ajusta con unos pocos clics: Usa PaliGemma 2 Mix directamente en Vertex Model Garden.


Si bien PaliGemma 2 Mix tiene un gran rendimiento en múltiples tareas, obtendrás mejores resultados si ajustas PaliGemma 2 en tu propia tarea o dominio. Para aprender a hacerlo, consulta nuestra documentación completa y nuestros cuadernos de ejemplo oficiales para Keras y JAX, o bien usa el ejemplo de transformadores de Hugging Face. ¡Ansiamos ver cómo usas este recurso!