Gemini API の Gemini 2.5 Flash と Pro、Live API、Veo 2

2025年4月9日

Shrestha Basu Mallick Group Product Manager

Alisa Fortin Product Manager

Ivan Solovyev Product Manager

Joana Carrasqueira Senior Manager, DeepMind Developer Relations

Google AI を使って未来を築く皆さんのようなデベロッパーを支援するために、今年の Cloud Next で新しいアップデートと機能を発表できることをうれしく思います。Google AI Studio で Gemini API を使っているデベロッパーの皆さんのために、最新の Gemini 2.5 思考モデル、リアルタイムインタラクション用の Live API の新たな進展、高品質動画生成用の Veo 2 の一般公開など、今週のエキサイティングな発表をお知らせします。

Gemini 2.5 で開発する

先日紹介した Gemini 2.5 Pro は、私たちの最も有能な AI モデルであるとともに、論理的に思考してから回答できる思考モデルの能力を示すものです。また、Gemini 2.5 Pro はこれまでで最も高度なコーディングモデルであり、視覚的に魅力的なウェブアプリを作ったり、エージェント型プログラミングアプリケーションを開発したりすることが得意です。

先週にはデベロッパー向けに Gemini 2.5 Pro が公開され、Google AI Studio の Gemini API と、企業向けの Vertex AI で開発できるようになりました。

Link to Youtube Video (visible only when JS is disabled)

この勢いのまま、まもなく Gemini 2.5 Flash が登場することをお知らせします。人気の主力モデルの進化により、低レイテンシとコスト効率を維持したまま、思考能力が追加されます。

これは、すべての Gemini モデルを適応型思考に対応させるというビジョンに向けた重要な一歩です。Gemini 2.5 モデルを使った開発では、100 万トークンの入力コンテキストウィンドウを利用できるので、エージェントの能力を向上させる、マルチエージェントシステムを管理する、コードアシストやコードベース全体に関する生成的推論を高速に行うことなど、アプリケーションの新しいユースケースを数多く実現できます。

Veo 2 が一般提供版に

Gemini API の Veo 2 が一般提供版になったことをお知らせします。Veo 2 は、シンプルな指示にも複雑な指示にも従うことができ、さまざまな視覚スタイルで現実世界の物理現象をシミュレートできます。Veo 2 を使えば、テキストプロンプトと画像プロンプトの両方を基にして、アプリケーションの中で高品質な動画を直接生成できます。

テキスト動画変換（t2v）: テキストの説明から動画を生成します。

画像動画変換（i2v）: 画像から動画を生成します。オプションで、テキストプロンプトによるガイダンスを与えることもできます。

たとえば Wolf Games は、インタラクティブストーリーゲームを個人に合わせて作成できるジェネレーティブゲーミングプラットフォームを開発しています。Veo 2 を使い、映画のようなダイナミックなエクスペリエンスを作成することで、動画のリアリティ、モーション精度、カメラ制御が大幅に向上するので、そのメリットを活用しています。Wolf Games は、正しいビジュアルを作成するために必要な反復作業が 60% 以上減り、制作時間を大幅に短縮できたことで、クリエイティブなビジョンを短時間で実現できたと述べています。

Link to Youtube Video (visible only when JS is disabled)

本日より、Google AI Studio の Gemini API で Veo 2 を利用できます。

画質: 解像度 720p、24 フレーム/秒。

長さ: 最大 8 秒の動画クリップ。

価格: 動画生成 1 秒あたり 0.35 ドル。

動画生成を活用してインタラクティブなアプリケーションを開発してみたい方は、Veo 2 のドキュメント、プロンプトガイド、入門用のクックブックをご覧ください。スピーチや音楽など、その他の形式による Vertex AI の企業向け生成メディアについては、こちらをご覧ください。

Gemini モデルの Live API: プレビュー版の新機能

次世代の AI アプリケーションには、ダイナミックなリアルタイムインタラクションが不可欠です。Gemini モデルの Live API がプレビュー版になりました。安定したスケーラブルなアプリケーションの開発やテストが可能になるほか、レート制限も大幅に緩和されます。Google AI Studio の Gemini API と Vertex AI で最新機能を今すぐお試しください。

Live API を使うと、低レイテンシでオーディオ、動画、テキストをストリーミングするアプリケーションやエージェントを開発できます。人間のように会話したり、ライブ会議に参加したり、リアルタイムに状況を監視したりする際に最適です。

12 月の試験運用版リリース以来、デベロッパーの皆さんからのフィードバックを幅広く取り入れることで、GA リリースに強く求められる機能を追加しています。

30 の新しい言語と 2 つの新しい音声オプションをサポートします。

設定可能な音声アクティビティ検出（VAD）に加え、柔軟にカスタム VAD ソリューションを利用できるようになります。

スライディングコンテキストウィンドウにより、実質的に無限に続くセッションに対応します。

他にも多くの機能をサポートします。

こういった機能や強力なツール連携機能（検索、コード実行、関数呼び出し）のために、高度にインタラクティブなアプリケーションで Gemini 2.0 Flash などのモデルを使うなら、Live API が最適です。

リアルタイムエクスペリエンスを作成してみたい方は、ドキュメントや Live API の入門用クックブックをご覧ください。

今すぐお試しください

今回のアップデートで、デベロッパーコミュニティの可能性が広がることに期待しています。Gemini 2.5 の思考能力の強化、Live API によるリアルタイムインタラクション、Veo 2 の動画生成などを活用して、皆さんが次に開発するものを楽しみにしています！