En diciembre, lanzamos PaliGemma 2, un modelo de lenguaje-visión mejorado de la familia Gemma. Se incluyeron puntos de control preentrenados de diferentes tamaños (parámetros 3B, 10B y 28B) que pueden definirse fácilmente en una amplia variedad de dominios y tareas de lenguaje-visión, como segmentar imágenes, subtitular videos cortos, responder preguntas científicas y hacer tareas relacionadas con texto con alto rendimiento.
Ahora, estamos encantados de anunciar el lanzamiento de los puntos de control de PaliGemma 2 Mix. PaliGemma 2 Mix son modelos ajustados a una combinación de tareas que permiten explorar directamente las capacidades del modelo y usarlo de forma inmediata para casos de uso comunes.
Si ya usabas los puntos de control de mezcla de PaliGemma originales, puedes actualizar directamente a PaliGemma 2 sin necesidad de hacer ningún cambio. El modelo realiza diferentes tareas dependiendo de la instrucción. Puedes revisar la sintaxis de las instrucciones para diferentes tareas en la documentación oficial y obtener más información sobre cómo se desarrolló PaliGemma 2 en nuestro informe técnico.
Resultado:
Resultado:
Resultado:
Resultado:
Resultado:
Resultado: playa
Resultado: una vaca de pie en una playa, junto a un letrero que advierte sobre una corriente de resaca peligrosa.
Reconocimiento óptico de caracteres (OCR)
Resultado:
ADVERTENCIA
PELIGROSA
CORRIENTE DE RESACA
Resultado:
Resultado:
Resultado: una vaca de pie en una playa, junto a un letrero de advertencia.
Resultado:
ADVERTENCIA PELIGROSA
CORRIENTE DE RESACA
¿Quieres descubrir el potencial de PaliGemma 2? Aquí te mostramos cómo explorar las funciones del modelo Mix:
Si bien PaliGemma 2 Mix tiene un gran rendimiento en múltiples tareas, obtendrás mejores resultados si ajustas PaliGemma 2 en tu propia tarea o dominio. Para aprender a hacerlo, consulta nuestra documentación completa y nuestros cuadernos de ejemplo oficiales para Keras y JAX, o bien usa el ejemplo de transformadores de Hugging Face. ¡Ansiamos ver cómo usas este recurso!