使用 Gemini 2.5 推进视频理解的前沿

2025年5月9日
Anirudh Baddepudi Product Manager
Antoine Yang Research Scientist
Mario Lučić Research Scientist

我们的 Gemini 系列近期推出了两款新模型:Gemini 2.5 Pro Preview (05/06)Gemini 2.5 Flash (04/17)。这两款模型在视频理解方面实现了重大飞跃。Gemini 2.5 Pro 在多项关键视频理解基准测试中表现出众,在相同测试条件(相同的提示词和视频帧)下超过了 GPT 4.1 等新推出的模型。

此外,它还在多项具有挑战性的基准测试中表现出色,媲美一些专门经过调优的模型,例如 YouCook2 密集字幕生成和 QVHighlights 时刻检索。对于对成本敏感的应用场景,Gemini 2.5 Flash 则提供了高性价比替代方案。

Advancing the frontier of video understanding with Gemini 2.5
评估 Gemini 2.5 与早期模型在视频理解基准测试中的表现。 性能评估指标包括:多项选择 VideoQA 的字符串匹配准确率、EgoTempo 基于大语言模型的准确率、QVHighlights 的 R1@0.5,以及 YouCook2 的 CIDEr。 *除 1H-VideoQA(7200 帧)外,所有视频均以 1fps 处理,并以线性形式二次采样最多 256 帧。

借助 Gemini 2.5 实现视频和代码的融合

Gemini 2.5 是首个能够原生多模态地将视听信息与代码及其他数据格式无缝融合的模型。为了展示 Gemini 2.5 在视频理解方面的强大能力,我们在下面列出了一些最令我们兴奋的用例。


将视频变成交互式应用

Gemini 2.5 Pro 解锁了将视频转化为交互式应用的新可能性。Video To Learning App 是一款基于 Google AI Studio 的入门应用,借助 Gemini 2.5 提供更有效且更具吸引力的视频学习内容。

首先,模型接收到一个 YouTube 网址和一段文字提示,提示说明了如何分析该视频。Gemini 2.5 Pro 分析视频后,生成详细的学习应用规范,帮助强化视频中的关键概念。

然后将生成的规范直接发送回 Gemini 2.5 Pro,生成应用代码,如下面的视力矫正模拟器应用所示。Gemini 2.5 Flash 也能实现类似的结果,为教育和交互式内容创作等领域的创新视频用例提供了新视角。

在 Google AI Studio 中将视频变成交互式应用

使用 p5.js 利用视频创建动画

Gemini 2.5 Pro 解锁了令人兴奋的创意可能性,例如通过一个简单的提示生成动态动画。此功能为自动生成内容和创建便于理解的视频摘要等用例开辟了新的途径。

例如,当给定关于 Project Astra视频以及提示词“Create an animation in p5.js covering the different landmarks seen in this video.”(创建 p5.js 格式的动画,涵盖视频中的不同地标)时,Gemini 2.5 Pro 会分析视频素材,并生成相应的 p5.js 动画。该动画以与视频中相同的时间顺序,展示了 Gemini 2.5 Pro 所识别的地标。

检索和描述视频中的时刻

Gemini 2.5 Pro 擅长使用视听提示识别视频中的特定时刻,其准确性明显高于以往的视频处理系统。例如,在这段 10 分钟的 Google Cloud Next 2025 开幕主题演讲视频中,它利用视频中的视听线索,准确识别了与产品演示相关的 16 个独立片段。

使用 Gemini 2.5 Pro 检索时刻(在 Google AI Studio 中查看完整输出)

时间推理

凭借其先进的时刻检索功能,Gemini 2.5 Pro 还能够解决细致的时间推理问题,例如计数。在此示例中,Gemini 成功统计了 Project Astra 视频主角使用手机的 17 个不同情节。

基于 Gemini 2.5 的视频理解能力进行开发

Google AI StudioGemini APIVertex AI 提供 Gemini 2.5 Flash 和 Pro 的视频理解功能。Gemini APIGoogle AI Studio 还提供对 YouTube 视频的支持,让任何人都可以基于数十亿条视频构建应用。

现在,Gemini API 提供了一个“低”媒体分辨率参数,使 Gemini 2.5 Pro 能够处理大约 6 小时的视频和 200 万个 token 的上下文。这为许多长视频理解用例提供了更具成本效益的设置,以及具有竞争力的视频理解性能(例如,在 VideoMME 方面达到了 84.7% 的准确率,与基准 85.2% 相近)。

社区中涌现的创新视频应用让我们备受鼓舞,迫不及待想看到您构建的内容!


致谢

特别感谢 Aaron Wade 创建了 Video To Learning App ,以及本博文中展示的视力矫正模拟器示例。

我们感谢 Sergi Caelles Boyu Wang 线上 Saarthak Khanna 感谢他们对上述评估的贡献, 感谢 Angeliki Lazaridou 感谢我们提供了一些演示示例,并感谢整个 Gemini 视频理解团队为此版本所做的工作。最后,我们要感谢视频理解团队的领导们 Mario Lučić, Shuo-yiin Chang, 线上 Paul Natsev, 并引领整体多模式理解 Jean-Baptiste Alayrac.