Presentamos PaliGemma, Gemma 2 y un Kit de herramientas de IA responsable actualizado

MAY 14, 2024
Tris Warkentin Director, Product Management
Xiaohua Zhai Senior Staff Research Scientist
Ludovic Peran Product Manager

En Google, creemos en el poder de la colaboración y la investigación abierta para impulsar la innovación, y estamos agradecidos de ver la aceptación de Gemma por parte de la comunidad, con millones de descargas a los pocos meses de su lanzamiento.

Esta respuesta entusiasta fue increíblemente inspiradora, ya que los desarrolladores han creado una amplia gama de proyectos como Navarasa, una variante multilingüe para los idiomas índicos, y Octopus v2, un modelo de acción en el dispositivo. Los desarrolladores están mostrando el potencial de Gemma para crear soluciones de IA accesibles y de impacto.

Este espíritu de exploración y creatividad también impulsó nuestro desarrollo de CodeGemma, con sus potentes capacidades de finalización y generación de código, y RecurrentGemma, que ofrece posibilidades eficaces de inferencia e investigación.

Link to Youtube Video (visible only when JS is disabled)

Gemma es una familia de modelos abiertos ligeros con tecnología de punta compilados con la misma tecnología e investigación que se usó para crear los modelos de Gemini. Hoy, nos complace ampliar mucho más la familia Gemma con la presentación de PaliGemma, un potente modelo de lenguaje de visión (VLM) abierto, y un adelanto del futuro cercano con el anuncio de Gemma 2. Además, estamos promoviendo nuestro compromiso con la IA responsable con actualizaciones de nuestro kit de herramientas de IA generativa responsable, que ofrece a los desarrolladores herramientas nuevas y mejoradas para evaluar la seguridad del modelo y filtrar el contenido dañino.


Presentamos PaliGemma: modelo de lenguaje de visión abierto

PaliGemma es un potente VLM abierto inspirado en PaLI-3. Basado en componentes abiertos que incluyen el modelo de visión SigLIP y el modelo de lenguaje Gemma, PaliGemma está diseñado para un rendimiento ajustado líder en su clase en una amplia gama de tareas de lenguaje de visión. Esto incluye subtítulos de imágenes y videos cortos, respuestas a preguntas visuales, comprensión del texto en las imágenes, detección de objetos y segmentación de objetos.

Ofrecemos puntos de control entrenados previamente y ajustados en múltiples resoluciones, así como puntos de control específicamente adaptados a una combinación de tareas para una exploración inmediata.

Para facilitar la exploración e investigación abiertas, PaliGemma está disponible a través de varias plataformas y recursos. Empieza a explorar hoy mismo con opciones gratuitas como los cuadernos de Kaggle y Colab. Los investigadores académicos que buscan ampliar los límites de la investigación del lenguaje de visión también pueden solicitar créditos de Google Cloud para respaldar su trabajo.

Comienza a usar PaliGemma hoy mismo. Puedes encontrar PaliGemma en GitHub, modelos de Hugging Face, Kaggle, Vertex AI Model Garden y ai.nvidia.com (acelerado con TensoRT‑LLM) con una fácil integración a través de JAX y Hugging Face Transformers. (Próximamente, tendremos la integración de Keras) También puedes interactuar con el modelo a través de este Hugging Face Space.

Screenshot from the HuggingFace Space running PaliGemma showing an image of a cat wearing a tiny hat, with his head on stack of four pancakes
Captura de pantalla de Hugging Face Space ejecutando PaliGemma

Anunciamos Gemma 2: rendimiento y eficiencia de nueva generación

Estamos encantados de anunciar la llegada inminente de Gemma 2, la nueva generación de modelos Gemma. Gemma 2 estará disponible en nuevos tamaños para una amplia gama de casos de uso de desarrolladores de IA y presenta una nueva arquitectura diseñada para un rendimiento y una eficiencia innovadores, que ofrece ventajas como:

  • Rendimiento líder en su clase: con 27 mil millones de parámetros, Gemma 2 ofrece un rendimiento comparable al de Llama 3 70B en menos de la mitad del tamaño. Esta eficiencia revolucionaria establece un nuevo estándar en el panorama de los modelos abiertos.

  • Costes de implementación reducidos: el diseño eficiente de Gemma 2 le permite adaptarse a menos de la mitad del cómputo de modelos comparables. El modelo 27B está optimizado para ejecutarse en las GPU de NVIDIA o puede ejecutarse de manera eficiente en un solo host de TPU en Vertex AI, lo que hace que la implementación sea más accesible y rentable para una gama más amplia de usuarios.

  • Cadenas de herramientas de ajuste versátiles: Gemma 2 ofrecerá a los desarrolladores sólidas capacidades de ajuste en un ecosistema diverso de plataformas y herramientas. Desde soluciones basadas en la nube como Google Cloud hasta herramientas comunitarias populares como Axolotl, ajustar Gemma 2 será más fácil que nunca. Además, la integración perfecta de los socios con Hugging Face y NVIDIA TensorRT-LLM, junto con nuestros propios JAX y Keras, garantiza que puedas optimizar el rendimiento e implementar de manera eficiente en varias configuraciones de hardware.
Gemma pre-trained model performance benchmarks
Gemma 2 todavía está en entrenamiento previo. Este gráfico muestra el rendimiento del último punto de control de Gemma 2 junto con las métricas comparativas previas a la capacitación. Fuente: Hugging Face Open LLM Leaderboard (22 de abril de 2024) y blog de anuncios de Grok

¡No te pierdas el lanzamiento oficial de Gemma 2 en las próximas semanas!


Ampliación del Kit de herramientas de IA generativa responsable

Por esta razón, ampliamos nuestro Kit de herramientas de IA generativa responsable para ayudar a los desarrolladores a realizar evaluaciones de modelos más sólidas lanzando LLM Comparator en código abierto. LLM Comparator es una nueva herramienta interactiva y visual para realizar evaluaciones paralelas efectivas para evaluar la calidad y la seguridad de las respuestas del modelo. Para ver a LLM Comparator en acción, explora nuestra demostración, que muestra una comparación entre Gemma 1.1 y Gemma 1.0.

screenshot showing a side by side evaluation in the LLM Comparator

Esperamos que esta herramienta avance aún más en la misión del kit de herramientas de ayudar a los desarrolladores a crear aplicaciones de IA que no solo sean innovadoras, sino también seguras y responsables.

A medida que continuamos expandiendo la familia de modelos abiertos Gemma, seguimos dedicados a fomentar un entorno colaborativo donde la tecnología de IA de vanguardia y el desarrollo responsable vayan de la mano. Esperamos con entusiasmo ver lo que compilas con estas nuevas herramientas y cómo, juntos, podemos dar forma al futuro de la IA.