Gemini 1.5 Pro ya está disponible en más de 180 países, con comprensión de audio nativo, instrucciones del sistema, modo JSON y más

ABR 09, 2024
Jaclyn Konzelmann Google Labs
Megan Li Google Labs

Toma una clave de API en Google AI Studio y comienza con la guía de soluciones de la API de Gemini

Hace menos de dos meses, pusimos a disposición de los desarrolladores nuestro modelo Gemini 1.5 Pro de próxima generación en Google AI Studio para que lo probaran. Nos sorprendió lo que la comunidad logró depurar, crear y aprender con nuestra innovadora ventana de contexto de 1 millón de tokens.

Hoy, presentamos la disponibilidad de Gemini 1.5 Pro en más de 180 países a través de la API de Gemini en versión preliminar pública, con una primera capacidad de comprensión de audio (voz) nativo y una nueva API de archivos para facilitar el manejo de archivos. También lanzamos nuevas funciones como las instrucciones del sistema y el modo JSON para dar a los desarrolladores más control sobre la salida del modelo. Por último, presentamos nuestro modelo de inserción de texto de próxima generación, que supera a los modelos comparables. Ve a Google AI Studio para crear tu clave de API o acceder a ella, y comienza a crear.


Desbloquea nuevos casos de uso con modalidades de audio y video

Ampliamos las modalidades de entrada para Gemini 1.5 Pro a fin de incluir la comprensión de audio (voz) tanto en la API de Gemini como en Google AI Studio. Además, Gemini 1.5 Pro ahora puede razonar tanto en imagen (fotogramas) como en audio (voz) para los videos cargados en Google AI Studio, y esperamos agregar soporte de API para esto pronto.

screen grab of a clooege professor using Gemini 1.5 Pro to create a quiz based on their latest lecture video in Google AI Studio
Puedes cargar una grabación de una conferencia, como esta conferencia de más de 117.000 tokens de Jeff Dean, y Gemini 1.5 Pro la convertirá en un cuestionario con una clave de respuesta. (El video se aceleró para fines de demostración).

Mejoras en la API de Gemini

Hoy, abordamos una serie de solicitudes de los principales desarrolladores:

1. Instrucciones del sistema: guía las respuestas del modelo con las instrucciones del sistema, ahora disponibles en Google AI Studio y la API de Gemini. Define roles, formatos, objetivos y reglas para dirigir el comportamiento del modelo según el caso de uso específico.

Image showing where System Instructions is located in Google AI Studio
Establece las instrucciones del sistema fácilmente en Google AI Studio

2. Modo JSON: indícale al modelo que solo muestre objetos JSON. Este modo permite extraer datos estructurados a partir de texto o imágenes. Puedes comenzar con cURL, y el soporte de Python SDK llegará pronto.


3. Mejoras en la llamada a funciones: ahora puedes seleccionar modos para limitar los resultados del modelo y, así, mejorar la confiabilidad. Elige texto, llamada a función o simplemente la función misma.


Un nuevo modelo de incorporación con rendimiento mejorado

A partir de hoy, los desarrolladores podrán acceder a nuestro modelo de incorporación de texto de próxima generación a través de la API de Gemini. El nuevo modelo, text-embedding-004, (text-embedding-preview-0409 en Vertex AI), logra un rendimiento de recuperación más sólido y supera a los modelos existentes con dimensiones comparables, en los puntos de referencia de MTEB.

table showing Gecko: Versativel Text Embeddings Distilled from Large Language Models
'Text-embedding-004' (también conocido como Gecko) que utiliza una salida de 256 dims supera a todos los modelos de salida de 768 dims más grandes en los puntos de referencia MTEB

Estas son solo las primeras de muchas mejoras que llegarán a la API de Gemini y a Google AI Studio en las próximas semanas. Seguimos trabajando para que Google AI Studio y la API de Gemini sean la forma más fácil de crear con Gemini. Comienza hoy mismo en Google AI Studio con Gemini 1.5 Pro, explora ejemplos de código y la guía de inicio rápido en nuestra nueva guía de soluciones de la API de Gemini y únete a nuestro canal de la comunidad en Discord.