Gemini 1.5: nuestro modelo de nueva generación, ahora disponible en versión preliminar privada en Google AI Studio

FEB 15, 2024
Jaclyn Konzelmann Google Labs
Wiktor Gworek Google Labs

La semana pasada, lanzamos Gemini 1.0 Ultra en Gemini Advanced. Puedes probarlo ahora registrándote para obtener una suscripción a Gemini Advanced. El modelo 1.0 Ultra, accesible a través de la API de Gemini, despertó mucho interés y se continúa implementando para desarrolladores y socios seleccionados en Google AI Studio.

Hoy, también nos complace presentar nuestro modelo Gemini 1.5 de nueva generación, que utiliza un nuevo enfoque de mezcla de expertos (MoE) para mejorar la eficiencia. Dirige tu solicitud a un grupo de redes neuronales “expertas” más pequeñas para que las respuestas sean más rápidas y de mayor calidad.

Los desarrolladores pueden registrarse para obtener una versión preliminar privada de Gemini 1.5 Pro, nuestro modelo multimodal de tamaño mediano optimizado para escalar en una amplia gama de tareas. El modelo cuenta con una nueva ventana de contexto experimental de 1 millón de tokens y estará disponible para probar en Google AI Studio. Google AI Studio es la forma más rápida de compilar con los modelos Gemini y permite a los desarrolladores integrar fácilmente la API de Gemini en sus apps. Está disponible en 38 idiomas, en más de 180 países y territorios.

1.000.000 de tokens: desbloquear nuevos casos de uso para desarrolladores

Hasta hoy, la ventana de contexto más grande del mundo para un modelo de lenguaje grande disponible públicamente era de 200.000 tokens. Logramos aumentar significativamente este número, ya que ejecutamos hasta 1 millón de tokens de manera constante. Gracias a este logro, podemos proporcionar la ventana de contexto más extensa entre las que ofrecen los modelo de base a gran escala. Gemini 1.5 Pro vendrá con una ventana de contexto de 128.000 tokens de forma predeterminada, pero la versión preliminar privada de hoy tendrá acceso a la ventana de contexto experimental de 1 millón de tokens.

Nos entusiasma pensar en las nuevas posibilidades que ofrecerán las ventanas de contexto más grandes. Puedes cargar directamente archivos PDF grandes, repositorios de código o, incluso, videos largos en función de lo que se indique en Google AI Studio. Gemini 1.5 Pro razonará mediante las modalidades y el texto de salida.

1) Sube varios archivos y haz preguntas
Ahora desarrolladores tienen la posibilidad de subir varios archivos, como PDF, y hacer preguntas en Google AI Studio. La ventana de contexto más grande permite que el modelo reciba más información, lo que hace que el resultado sea más coherente, relevante y útil. Con esta ventana de contexto de 1 millón de tokens, pudimos cargar más de 700.000 palabras de texto de una sola vez.

Gemini 1.5 Pro puede encontrar y razonar a partir de citas particulares en la transcripción en PDF de Apolo 11. [Video acelerado con fines de demostración]

2) Consulta un repositorio de código completo

La ventana de contexto grande también permite un análisis profundo de toda una base de código, lo que ayuda a los modelos de Gemini a comprender relaciones complejas, patrones y comprensión del código. Un desarrollador puede cargar una nueva base de código directamente desde su computadora o mediante Google Drive, y usar el modelo para registrarse rápidamente y comprender el código.

Gemini 1.5 Pro puede ayudar a los desarrolladores a aumentar la productividad cuando se aprende una nueva base de código. [Video acelerado con fines de demostración]

3) Agrega un video de larga duración

Gemini 1.5 Pro también puede razonar hasta 1 hora de video. Cuando adjuntas un video, Google AI Studio lo divide en miles de fotogramas (sin audio), y, luego, puedes realizar tareas de razonamiento y resolución de problemas altamente sofisticadas, ya que los modelos Gemini son multimodales.

Gemini 1.5 Pro puede realizar tareas de razonamiento y resolución de problemas en video y otras entradas visuales. [Video acelerado con fines de demostración]

Más formas de compilar con los modelos de Gemini

Además de ofrecerte las últimas innovaciones en modelos, también te facilitamos la compilación con Gemini:

  • Ajuste fácil. Proporciona un conjunto de ejemplos y podrás personalizar Gemini en función de tus necesidades específicas en minutos dentro de Google AI Studio. Esta función se implementará en los próximos días. 
  • Nuevas plataformas para desarrolladores. Integra la API de Gemini para crear nuevas funciones impulsadas por IA hoy con las nuevas extensiones de Firebase, en todo tu lugar de trabajo de desarrollo, en Project IDX o con nuestro SDK de Google AI Dart, que se lanzó recientemente. 
  • Precios más bajos para Gemini 1.0 Pro. También estamos actualizando el modelo 1.0 Pro, que ofrece una buena relación entre precio y calidad para muchas tareas de IA. En relación con lo anunciado anteriormente, la versión estable de hoy tiene un precio un 50% menor para las entradas de texto y un 25% menor para las salidas. Pronto contaremos con los próximos planes de pago por uso de AI Studio.

Desde diciembre, todo tipo de desarrolladores se abocaron a compilar con los modelos Gemini y nos entusiasma poder transformar la investigación de vanguardia en los primeros productos para desarrolladores en Google AI Studio. Se espera algo de latencia en esta versión preliminar debido a la naturaleza experimental de la función de la ventana de contexto grande, pero nos complace anunciar que comenzaremos con una implementación por etapas, al tiempo que seguiremos ajustando el modelo y recibiendo tus comentarios. Esperamos que disfrutes experimentando con el modelo desde el principio, tal como lo hicimos nosotros.