El nuevo capítulo de la era de Gemini para desarrolladores

DIC 11, 2024
Shrestha Basu Mallick Group Product Manager Gemini API
Kathy Korevec Director of Product Google Labs

Les brindamos a los desarrolladores el poder de construir el futuro de la IA con modelos de vanguardia, herramientas inteligentes para escribir código más rápido y una integración perfecta en diferentes plataformas y dispositivos. Desde diciembre pasado, cuando lanzamos Gemini 1.0, millones de desarrolladores utilizaron Google AI Studio y Vertex AI para compilar con Gemini en 109 idiomas.

Hoy, presentamos Gemini 2.0 Flash Experimental, que permite el desarrollo de aplicaciones aún más inmersivas e interactivas, así como nuevos agentes de codificación que mejorarán los flujos de trabajo realizando acciones en nombre del desarrollador.


Compilar con Gema 2.0 Flash

Gemini Flash 2.0 se basa en el éxito de la versión 1.5 Flash, es dos veces más rápido que 1.5 Pro y, al mismo tiempo, logra un rendimiento más sólido e incluye nuevas salidas multimodales y el uso de herramientas nativas. También presentamos una API de Multimodal Live para crear aplicaciones dinámicas con transmisión de audio y video en tiempo real.

A partir de hoy, los desarrolladores pueden probar y explorar Gemini 2.0 Flash a través de la API de Gemini en Google AI Studio y Vertex AI durante su fase experimental, mientras que tendrá disponibilidad general a principios del próximo año.

Con Gemini 2.0 Flash, los desarrolladores tienen acceso a lo siguiente:

1. Mejor rendimiento

Gemini 2.0 Flash es más potente que 1.5 Pro y, al mismo tiempo, ofrece la velocidad y eficiencia que la comunidad de desarrolladores espera de Flash. También presenta un mejor rendimiento en relación con salidas multimodales y de texto, código, video, comprensión espacial y razonamiento en comparativas clave. La mejor comprensión espacial permite la generación de cuadros de límite más precisos en objetos pequeños en imágenes desordenadas, y una mejor identificación y subtitulación de objetos. Obtén más información en el video sobre comprensión espacial o lee los documentos de la API de Gemini.

Link to Youtube Video (visible only when JS is disabled)

2. Nuevas modalidades de salida

Los desarrolladores podrán usar Gemini 2.0 Flash para generar respuestas integradas que pueden incluir texto, audio e imágenes, todo a través de una sola llamada a la API. Estas nuevas modalidades de salida están disponibles para los primeros verificadores y se espera una implementación más amplia el próximo año. Las marcas de agua invisibles de SynthID se habilitarán en todas las salidas de imagen y audio, lo que ayudará a disminuir la información errónea y las preocupaciones sobre atribuciones incorrectas.

  • Salida de audio nativa multilingüe: Gemini 2.0 Flash presenta una salida de audio nativa de texto a voz que proporciona a los desarrolladores un control detallado no solo de lo que dice el modelo, sino también de cómo lo dice, ya que incluye una selección de ocho voces de alta calidad y una variedad de idiomas y acentos. Escucha la salida de audio nativa en acción u obtén más información en los documentos para desarrolladores.

  • Salida de imagen nativa: Gemini 2.0 Flash ahora genera imágenes de forma nativa y admite la edición conversacional múltiple, de modo que puedas aprovechar las salidas anteriores y refinarlas. Además, el nuevo modelo, puede generar texto e imágenes intercalados, por lo que es eficaz en el procesamiento de contenido multimodal, como recetas. Obtén más información en el video sobre salida de imagen nativa.

Link to Youtube Video (visible only when JS is disabled)

3. Uso de herramientas nativas

Gemini 2.0 se entrenó para usar herramientas, una capacidad fundamental para crear experiencias auténticas. Puede llamar de forma nativa a herramientas como la Búsqueda de Google y la ejecución de código, además de funciones personalizadas de terceros, a través de llamadas a funciones. El uso de la Búsqueda de Google de forma nativa como herramienta permite obtener respuestas más objetivas y completas, y aumentar el tráfico hacia los publicadores. Se pueden ejecutar varias búsquedas en paralelo, lo que mejora la recuperación de información, ya que se encuentran hechos más relevantes en muchas fuentes de forma simultánea y se combinan para obtener una mayor precisión. Obtén más información en el video sobre el uso de herramientas nativas o comienza a crear desde una notebook.

Link to Youtube Video (visible only when JS is disabled)

4. API de Multimodal Live

Ahora los desarrolladores pueden crear aplicaciones multimodales en tiempo real con entradas de transmisión de audio y video desde cámaras o pantallas. Se admiten patrones de conversación naturales, como detección de interrupciones y actividad de voz. La API admite la integración de varias herramientas para procesar casos de uso complejos con una sola llamada. Obtén más información en la transmisión de video en vivo sobre aplicaciones multimodales y prueba la consola web o el código de inicio (Python).

Link to Youtube Video (visible only when JS is disabled)

Nos encanta ver el impresionante progreso que logran las startups con Gemini 2.0 Flash, creando prototipos de nuevas experiencias como el espacio de juego visual de tldraw, la creación de personajes virtuales y la creación de audio con Viggle, la traducción multilingüe contextual de Toonsutra y la adición de audio en tiempo real de Rooms.

Para impulsar la creación, lanzamos tres experiencias de apps de inicio en Google AI Studio, junto con código fuente abierto para la comprensión espacial, el análisis de video y la exploración de Google Maps, de modo que puedas comenzar a compilar con Gemini 2.0 Flash.


Permitimos la evolución de la asistencia de código de IA

Para acompañar la rápida evolución de la asistencia de código de IA, que pasó de simples búsquedas de código a asistentes impulsados por IA integrados en los flujos de trabajo de los desarrolladores, queremos compartir el último avance que utilizará Gemini 2.0: agentes de codificación que pueden ejecutar tareas en tu nombre.

En nuestra última investigación, pudimos utilizar Flash 2.0 equipado con herramientas de ejecución de código para alcanzar un 51.8% en SWE-bench Verified, un punto de referencia con el que se prueba el rendimiento del agente en tareas de ingeniería de software del mundo real. La velocidad de inferencia de vanguardia de 2.0 Flash permitió al agente hacer un muestreo de cientos de soluciones potenciales y seleccionar las mejores en función de las pruebas unitarias existentes y el propio juicio de Gemini. Estamos en proceso de convertir esta investigación en nuevos productos para desarrolladores.


Te presentamos a Jules, tu agente de código impulsado por IA

Imagina que tu equipo acaba de terminar un bug bash y ahora estás mirando una larga lista de errores. A partir de hoy, puedes descargar las tareas de codificación de Python y Javascript a Jules, un agente de código experimental impulsado por IA que utilizará Gemini 2.0. Jules funciona de forma asincrónica e integrada con tu flujo de trabajo de GitHub y se encarga de la corrección de errores y otras tareas que consumen mucho tiempo, mientras te centras en lo que realmente quieres crear. Jules crea planes integrales de varios pasos para abordar problemas, modifica de manera eficiente varios archivos e incluso prepara solicitudes de extracción para obtener correcciones directamente en GitHub.

Aún es demasiado pronto, pero desde nuestra experiencia interna, esto es lo que Jules ofrece a los desarrolladores:

  • Mayor productividad. Asigna problemas y tareas de codificación a Jules para obtener una eficiencia de codificación asincrónica.

  • Seguimiento del progreso. Mantente informado y prioriza las tareas que requieren tu atención con actualizaciones en tiempo real.

  • Control total del desarrollador. Revisa los planes que Jules crea sobre la marcha y proporciona comentarios o solicita los ajustes que creas necesarios. Revisa fácilmente tu trabajo y, si corresponde, fusiona el código que Jules escribe en tu proyecto.

Hoy Jules está disponible para un grupo selecto de verificadores de confianza, pero estará a disposición de otros desarrolladores interesados a principios de 2025. Regístrate en labs.google.com/jules para recibir novedades sobre Jules.


El agente de ciencia de datos de Colab creará notebooks para ti

Este año, en I/O, lanzamos un agente experimental de ciencia de datos en labs.google/code que permite a cualquier persona cargar un conjunto de datos y obtener información en cuestión de minutos, todo basado en una notebook de Colab en funcionamiento. Nos encantó recibir comentarios tan positivos de la comunidad de desarrolladores y ver el impacto que produjo en esta. Por ejemplo, con la ayuda de Data Science Agent, un científico del Laboratorio Nacional Lawrence Berkeley que trabaja en un proyecto global de emisiones de metano de humedales tropicales estimó que su tiempo de análisis y procesamiento se redujo de una semana a cinco minutos.

Colab comenzó a integrar estas mismas capacidades de agente utilizando Gemini 2.0. Solo debes describir tus objetivos de análisis en un lenguaje sencillo y observar cómo tu notebook cobra forma automáticamente, lo que ayuda a acelerar tu capacidad para realizar investigaciones y análisis de datos. Los desarrolladores pueden obtener acceso anticipado a esta nueva función si participan en el programa de verificadores de confianza antes de que se habilite para el resto de los usuarios de Colab en la primera mitad de 2025.

Los desarrolladores están creando el futuro

Nuestros modelos Gemini 2.0 pueden ayudarte a crear apps de IA más capaces de forma más rápida y sencilla, para que puedas centrarte en ofrecer a los usuarios grandes experiencias. En los próximos meses, implementaremos Gemini 2.0 en nuestras plataformas, como Android Studio, Herramientas para desarrolladores de Chrome y Firebase. Los desarrolladores pueden registrarse para usar Gemini 2.0 Flash en Gemini Code Assist, a fin de obtener capacidades mejoradas de asistencia de codificación en IDE populares, como Visual Studio Code, IntelliJ y PyCharm, entre otros. Visita ai.google.dev para comenzar a usar Gemini 2.0 Flash y sigue a Google AI para desarrolladores si quieres recibir las últimas novedades.