Gemini 2.5 で動画理解の新たな地平を切り開く

2025年5月9日
Anirudh Baddepudi Product Manager
Antoine Yang Research Scientist
Mario Lučić Research Scientist

Google は最近、Gemini ファミリーの 2 つの新モデルである Gemini 2.5 Pro Preview(05/06)Gemini 2.5 Flash(04/17)をリリースしました。これらのモデルは、動画理解における大きな飛躍を示しています。Gemini 2.5 Pro は、主要な動画理解ベンチマークで最高水準のパフォーマンスを達成し、同等のテスト条件(同じプロンプトと動画フレーム)で GPT 4.1 などの最近のモデルを凌駕しています。

さらに、いくつかの難易度の高いベンチマーク(YouCook 2 高密度キャプション生成や QVHighlights モーメント検索など)で特化型のファインチューニング モデルと肩を並べています。コスト重視の場合は、Gemini 2.5 Flash が非常に競争力のある選択肢となります。

Advancing the frontier of video understanding with Gemini 2.5
動画理解ベンチマークでの Gemini 2.5 と従来モデルの評価。 パフォーマンスは、複数選択式 VideoQA の文字列一致精度、EgoTempo の LLM ベースの精度、QVHighlights の R1@0.5、YouCook 2 の CIDEr によって測定されています。 *動画は 1 FPS で処理され、1H-VideoQA(7200 フレーム)を除いて、最大 256 フレームまで線形に間引き処理されました。

Gemini 2.5 で動画とコードを組み合わせる

Gemini 2.5 では、ネイティブ マルチモーダル モデルがコードやその他のデータ形式で視聴覚情報をシームレスに使用することが初めて可能になりました。Gemini 2.5 の動画理解機能の実力を示すために、とりわけ興味深いユースケースを以下にいくつか紹介します。


動画をインタラクティブなアプリケーションに変換する

Gemini 2.5 Pro は、動画をインタラクティブなアプリケーションに変換するための新しい可能性を開きます。Google AI Studio スターターアプリである Video To Learning App は、Gemini 2.5 を使用して、動画コンテンツでの学習をより効果的かつ魅力的にします。

まず、モデルは YouTube の URL と、動画を分析する方法を説明したテキスト プロンプトを認識します。Gemini 2.5 Pro は動画を分析し、動画の主要なアイデアを強化する学習アプリケーションの詳細な仕様を作成します。

次に、以下の視力矯正シミュレータ アプリケーションで示されているように、生成された仕様は Gemini 2.5 Pro に直接送信され、アプリケーションのコードが生成されます。Gemini 2.5 Flash も同様の結果を達成でき、教育やインタラクティブ コンテンツ作成などの分野での革新的な動画ユースケースを示唆しています。

Google AI Studio で動画をインタラクティブ アプリケーションに変換

p5.js を使用して動画からアニメーションを作成する

Gemini 2.5 Pro は、1 つのプロンプトで動画からダイナミックなアニメーションを生成する機能など、エキサイティングな創造的可能性を解き放ちます。この機能により、自動コンテンツ生成やわかりやすい動画サマリーの作成など、新たなユースケースが実現します。

たとえば、Astra プロジェクト動画と「この動画に登場するさまざまなランドマークを取り入れたアニメーションを p5.js で作成して」というプロンプトを与えると、Gemini 2.5 Pro は映像を分析し、対応する p5.js アニメーションを生成します。アニメーションは、Gemini 2.5 Pro によって識別されたランドマークを動画と同じ順序で視覚化しています。

動画から特定の場面を取得して説明する

Gemini 2.5 Pro は、従来のビデオ処理システムよりもはるかに高い精度で、視聴覚的な手がかりを使用して動画内の特定の場面を識別することに優れています。たとえば、Google Cloud Next '25 のオープニング基調講演を収録したこの 10 分間の動画では、動画の音声と映像の両方の手がかりを使用して、プロダクト プレゼンテーションに関連する 16 の異なるセグメントを正しく識別します。

時間的推論

高度なモーメント検索機能を備えた Gemini 2.5 Pro は、カウントなどの微妙な時間的推論の問題も解決できます。この例では、Gemini は、Astra プロジェクトの動画で登場人物が自分のスマートフォンを操作している 17 の異なる場面を正しくカウントしています。

Gemini 2.5 の動画理解機能を使って開発する

Gemini 2.5 Flash と Pro の動画理解機能は、Google AI StudioGemini APIVertex AI で利用できます。YouTube 動画のサポートは、Gemini APIGoogle AI Studio を介して利用でき、誰でも何十億もの動画を利用してアプリケーションを構築できます。

Gemini API が「低」メディア解像度パラメータを提供するようになったことで、Gemini 2.5 Pro は 200 万トークンのコンテキストで最大 6 時間の動画を処理できるようになりました。これにより、多くの長時間動画理解のユースケースに対して、競争力のある動画理解パフォーマンス(たとえば、VideoMME で 84.7% 対 85.2% の精度)を備えた、より費用対効果の高い設定が提供されます。

私たちは、すでにコミュニティから登場している革新的な動画アプリケーションに胸を躍らせています。皆さんがどんなものを構築するか楽しみにしています!


謝辞

Video To Learning App に加えて、 このブログ投稿で 紹介した 視力矯正シミュレータの 例を作成してくれた Aaron Wade に感謝します。

評価面について協力してくれた Sergi Caelles、 Boyu Wang Saarthak Khanna 上記の評価に貢献いただいた皆様, いくつかの例を示してくれた デモ例を提供してくださった皆様、そしてこのリリースに至るまでの作業に尽力してくださったGeminiビデオ理解チームの皆様に感謝申し上げます。最後に、ビデオ理解リーダーの皆様に感謝申し上げます マリオ・ルチッチ, エスカーゴ株式会社, ポール・ナツェフ, 全体的なマルチモーダル理解のリード ジャン=バティスト・アレラック。