Actualización de los modelos de Gemini listos para producción, baja de precios de 1.5 Pro, mayores límites de velocidad y mucho más

24 DE SEPTIEMBRE DE 2024

Logan Kilpatrick Group Product Manager

Shrestha Basu Mallick Group Product Manager

Hoy, lanzamos dos modelos actualizados de Gemini listos para producción: Gemini-1.5-Pro-002 y Gemini-1.5-Flash-002 junto con:

>50% de descuento en el precio de 1.5 Pro (tanto de entrada como de salida para indicaciones por debajo de los 128,000)
Límites de velocidad 2 veces más altos en 1.5 Flash y hasta 3 veces más altos en 1.5 Pro
Salida 2 veces más rápida y latencia 3 veces menor
Configuración predeterminada de filtros actualizada

Estos nuevos modelos se basan en nuestros recientes lanzamientos de modelos experimentales e incluyen mejoras significativas en los modelos Gemini 1.5 que se presentaron en mayo en Google I/O. Los desarrolladores pueden acceder a nuestros últimos modelos de forma gratuita a través de Google AI Studio y la API de Gemini. Los modelos también están disponibles en Vertex AI para organizaciones más grandes y clientes de Google Cloud.

Mejora de la calidad general, con mayores avances en matemática, indicaciones contextuales largas y visión

La serie Gemini 1.5 incluye modelos diseñados para lograr un buen rendimiento general en una amplia gama de tareas de texto, código y multimodales. Por ejemplo, los modelos de Gemini se pueden usar para sintetizar información de archivos PDF de 1,000 páginas, responder preguntas sobre repositorios que contienen más de 10,000 líneas de código, tomar videos de una hora de duración, crear contenido útil a partir de ellos, entre otras tareas.

Con las últimas actualizaciones, 1.5 Pro y Flash ahora son mejores, más rápidos y rentables para crear en producción. Vemos un aumento de ~7% en MMLU-Pro, una versión más desafiante del popular punto de referencia MMLU. En los puntos de referencia de MATH y HiddenMath (un conjunto interno de problemas matemáticos de competencia), ambos modelos lograron una mejora considerable de ~20%. Para los casos de uso de visión y código, ambos modelos también tienen un mejor rendimiento (que oscila entre ~2 y 7%) en todas las pruebas que miden la comprensión visual y la generación de código Python.

A table showcasing benchmark data, demonstrating improved performance for the latest Gemini models, Gemini 1.5 Pro and Gemini 1.5 Flash. The table highlights advancements in various capabilities including reasoning, code, and math

También mejoramos la utilidad general de las respuestas modelo, sin dejar de mantener nuestras políticas y estándares de seguridad del contenido. Esto significa menos evasiones y rechazos, y respuestas más útiles en muchos temas.

En respuesta a los comentarios de los desarrolladores, ambos modelos ahora tienen un estilo más conciso, ya que el objetivo es que sean más fáciles de usar y, al mismo tiempo, reducir los costos. Para casos de uso como los resúmenes, las respuestas a preguntas y la extracción, la longitud de salida predeterminada de los modelos actualizados es ~5 a 20% más corta que los modelos anteriores. En el caso de los productos basados en chat, en los que los usuarios tal vez prefieran respuestas más largas de forma predeterminada, puedes leer nuestra guía de estrategias de indicaciones para obtener más información sobre cómo hacer que los modelos sean más detallados y conversacionales.

Para obtener más detalles sobre la migración a las últimas versiones de Gemini 1.5 Pro y 1.5 Flash, consulta la página de modelos de la API de Gemini.

Gemini 1.5 Pro

Nos siguen sorprendiendo las aplicaciones creativas y útiles de la ventana de contexto extensa de 2 millones de tokens y las capacidades multimodales de Gemini 1.5 Pro. Desde la comprensión de video hasta el procesamiento de archivos PDF de 1,000 páginas, aún quedan muchos casos de uso nuevos por construir. Hoy anunciamos una reducción del 64% en el precio de los tokens de entrada, una reducción del 52% en el precio de los tokens de salida y una reducción del 64% en el precio de los tokens en caché incrementales para nuestro modelo más sólido de la serie 1.5, Gemini 1.5 Pro, a partir del 1 de octubre de 2024, con indicaciones por debajo de los 128,000 tokens. Junto con el almacenamiento en caché de contexto, continuamos reduciendo el costo de creación con Gemini.

A pricing table for the Gemini 1.5 Flash model, outlining the cost per one million tokens for input and output

Aumento de los límites de velocidad

Para que los desarrolladores puedan crear con Gemini con mayor facilidad, aumentamos los límites de velocidad del nivel de pago para 1.5 Flash a 2,000 RPM y para 1.5 Pro a 1,000 RPM, en lugar de 1,000 y 360, respectivamente. En las próximas semanas, esperamos continuar aumentando los límites de velocidad de la API de Gemini para que los desarrolladores puedan crear más con Gemini.

Salidas 2 veces más rápidas y latencia 3 veces menor

Junto con las mejoras principales de nuestros modelos más recientes, en las últimas semanas redujimos la latencia con 1.5 Flash y aumentamos significativamente los tokens de salida por segundo, lo que permitió la implementación de nuevos casos de uso con nuestros modelos más potentes.

Side-by-side graphs charting the latency of Google's Gemini model over time, showing improvements.

Configuración de filtros actualizada

Desde que lanzamos por primera vez Gemini, en diciembre de 2023, la creación de un modelo seguro y confiable siempre fue un objetivo clave. Con las últimas versiones de Gemini (modelos -002), mejoramos la capacidad del modelo para seguir las instrucciones del usuario, al tiempo que equilibramos la seguridad. Continuaremos ofreciendo un conjunto de filtros de seguridad que los desarrolladores puedan aplicar a los modelos de Google. En el caso de los modelos que lanzamos hoy, los filtros no se aplicarán de forma predeterminada para que los desarrolladores puedan decidir cuál será la configuración más adecuada para sus casos de uso.

Actualizaciones Gemini 1.5 Flash-8B experimental

Lanzamos una versión mejorada del modelo Gemini 1.5 que presentamos en agosto, llamada “Gemini-1.5-Flash-8B-Exp-0924”. Esta versión mejorada incluye aumentos significativos en el rendimiento, tanto en casos de uso de texto como multimodales. Ya está disponible a través de Google AI Studio y la API de Gemini.

Fue increíble ver los comentarios sumamente positivos que los desarrolladores compartieron sobre 1.5 Flash-8B y continuaremos dando forma a nuestro proceso de lanzamiento experimental a producción en función de estos comentarios.

Nos entusiasman estas actualizaciones y tenemos muchas ganas de ver qué crearás con los nuevos modelos de Gemini. Además, los usuarios de Gemini Advanced pronto podrán acceder a una versión optimizada para chat de Gemini 1.5 Pro-002.

publicado en: