Ampliación de la frontera de la comprensión de video con Gemini 2.5

9 DE MAYO DE 2025
Anirudh Baddepudi Product Manager
Antoine Yang Research Scientist
Mario Lučić Research Scientist

Hace muy poco, lanzamos dos nuevos modelos en nuestra familia Gemini: Gemini 2.5 Pro Preview (05/06) y Gemini 2.5 Flash (04/17). Estos modelos son un gran avance en la comprensión de video. Gemini 2.5 Pro logra un rendimiento de vanguardia en puntos de referencia clave de comprensión de video, con lo que supera a modelos recientes como GPT 4.1 en condiciones de prueba comparables (mismas instrucciones y fotogramas de video).

Además, rivaliza con modelos especializados y ajustados en varios puntos de referencia desafiantes (p. ej., subtítulos densos de YouCook2 y recuperación de momentos de QVHighlights). Para aplicaciones sensibles a los costos, Gemini 2.5 Flash ofrece una alternativa altamente competitiva.

Advancing the frontier of video understanding with Gemini 2.5
Evaluación de Gemini 2.5 frente a modelos anteriores en puntos de referencia de comprensión de video. El rendimiento se mide por la exactitud de coincidencia de strings para VideoQA de opción múltiple, exactitud basada en LLM para EgoTempo, R1@0.5 para QVHighlights y CIDEr para YouCook2. * Los videos se procesaron a 1 fps y se submuestrearon linealmente hasta un máximo de 256 fotogramas, excepto 1H-VideoQA (7200 fotogramas).

Combinación de video y código con Gemini 2.5

Con Gemini 2.5, es la primera vez que un modelo multimodal nativo puede usar información audiovisual sin problemas con código y otros formatos de datos. Para ilustrar el poder de las capacidades de comprensión de video de Gemini 2.5, a continuación presentamos algunos de los casos de uso que más nos entusiasmaron.


Transformar videos en aplicaciones interactivas

Gemini 2.5 Pro presenta nuevas posibilidades para transformar videos en aplicaciones interactivas. La app Video To Learning, una aplicación de inicio de Google AI Studio, utiliza Gemini 2.5 para hacer que el aprendizaje del contenido de video sea más efectivo y atractivo.

En primer lugar, el modelo ve una URL de YouTube junto con una instrucción en texto que explica cómo debe analizar el video. Gemini 2.5 Pro analiza el video y elabora una especificación detallada para una aplicación de aprendizaje que refuerza las ideas clave presentadas en el video.

La especificación generada se envía directamente a Gemini 2.5 Pro para generar el código para la aplicación, como se ilustra en la app del simulador de corrección de la visión que se muestra abajo. Gemini 2.5 Flash puede lograr resultados similares, ya que permite ver cuáles serían los casos de uso de video novedosos en dominios como la educación y la creación de contenido interactivo.

Video a aplicación interactiva en Google AI Studio

Creación de animaciones a partir de video con p5.js

Gemini 2.5 Pro ofrece emocionantes posibilidades creativas, como la capacidad de generar animaciones dinámicas a partir de videos con una sola instrucción. Esta capacidad permite aplicar el modelo en casos de uso como la generación automatizada de contenido y la creación de resúmenes de videos accesibles.

Por ejemplo, cuando se le da nuestro video sobre el Proyecto Astra junto con la instrucción “Crea una animación en p5.js que cubra los diferentes puntos de referencia vistos en este video.”, Gemini 2.5 Pro analiza las imágenes y produce la animación p5.js correspondiente. Esta muestra los puntos de referencia identificados por Gemini 2.5 Pro en el mismo orden temporal que en el video.

Recuperación y descripción de momentos a partir de video

Gemini 2.5 Pro destaca en la identificación de momentos específicos dentro de los videos utilizando señales audiovisuales con una exactitud mucho mayor que los sistemas de procesamiento de video anteriores. Por ejemplo, en este video de 10 minutos de la presentación de apertura de Google Cloud Next '25, se identifican con exactitud 16 segmentos distintos relacionados con las presentaciones de productos, utilizando para ello señales de audio y visuales del video.

Razonamiento temporal

Gracias a sus capacidades avanzadas de recuperación de momentos, Gemini 2.5 Pro también es capaz de resolver problemas de razonamiento temporal con sutiles diferencias, como el conteo. En este ejemplo, Gemini cuenta con éxito 17 ocurrencias distintas en las que el personaje principal usa su teléfono en el video del proyecto Astra.

Conteo temporal con Gemini 2.5 Pro (ver resultado completo en Google AI Studio)

Compilación con comprensión de video de Gemini 2.5

La comprensión de video en Gemini 2.5 Flash y Pro está disponible en Google AI Studio, la API de Gemini y Vertex AI. La compatibilidad con videos de YouTube está disponible a través de la API de Gemini y Google AI Studio, lo que permite a cualquier persona compilar aplicaciones con acceso a miles de millones de videos.

La API de Gemini ahora ofrece un parámetro de resolución de medios “baja”, que permite a Gemini 2.5 Pro procesar aproximadamente 6 horas de video con 2 millones de tokens de contexto. De esta manera, se proporciona un entorno más rentable con un rendimiento de comprensión de video competitivo (por ejemplo, 84.7% frente a 85.2% de exactitud en VideoMME) para muchos casos de uso de comprensión de video largos.

Nos inspiran las innovadoras aplicaciones de video que ya están surgiendo en la comunidad y tenemos muchas ganas ver lo que creas.


Agradecimientos

Un agradecimiento especial para Aaron Wade por crear la app Video To Learning y por el ejemplo del simulador de corrección de visión que se muestra en la entrada del blog.

Agradecemos a Sergi Caelles, Boyu Wang y Saarthak Khanna por sus contribuciones a las evaluaciones presentadas anteriormente, Angeliki Lazaridou por inspirar algunos ejemplos de demostración, y a todo el equipo de comprensión de video de Gemini por el trabajo que culminó en este lanzamiento. Finalmente, nos gustaría agradecer a los líderes de comprensión de video. Mario Lučić, Shuo-yiin Chang, y Paul Natsev, y la comprensión multimodal general conduce Jean-Baptiste Alayrac.