Gemini API I/O の更新内容

2025年5月23日
Shrestha Basu Mallick Group Product Manager
Logan Kilpatrick Group Product Manager
Alisa Fortin Product Manager
Ivan Solovyev Product Manager

Gemini API は、最先端の生成系 AI モデルを活用した革新的なアプリケーションを効率的に構築できる手段をデベロッパーに提供します。Google AI Studio はこのプロセスを簡素化し、テキストや画像、さらには動画のプロンプトを用いたあらゆる API 機能のテストや迅速なプロトタイピング、実験を可能にします。大規模なテストや開発を行う際には、Gemini API を通じて利用可能な全機能を活用できます。


API で利用可能な新モデル

Gemini 2.5 Flash プレビュー- 新たに追加された 2.5 Flash プレビュー版(gemini-2.5-flash-preview-05-20)は、前バージョンと比べて推論力、コード処理、長文コンテキスト対応に優れています。現時点でこの 2.5 Flash バージョンは、LMarena のリーダーボードで 2.5 Pro に次ぐ第 2 位に位置付けられています。今回のアップデートでは、Flash のコスト効率も向上しており、同等の性能で必要なトークン数を削減し、評価指標において 22% の効率改善を達成しました。今後も皆様のフィードバックを基に改善を続け、両モデルの一般提供を目指します。

Gemini 2.5 Pro および Flash のテキスト読み上げ(TTS) - 24 言語に対応し、単一および複数話者のネイティブ音声出力をサポートする 2.5 Pro と Flash のテキスト読み上げプレビューも発表しました。これらのモデルでは、読み上げの表現やスタイルを細かく制御でき、豊かな音声出力を実現します。複数話者機能により、複数の異なる声を用いた会話を生成し、ダイナミックな対話体験を作り出せます。

Gemini 2.5 Flash ネイティブ音声対話 - プレビュー版では、Live API を通じて 30 種類以上の個性ある音声と 24 言語以上に対応した自然な会話音声を生成できます。また、話者と背景の会話を識別するプロアクティブ オーディオ機能を搭載し、応答すべきタイミングを的確に把握できるようになりました。さらに、ユーザーの感情表現や話し方のトーンに応じた適切な応答も行います。別途用意された思考モデルにより、より複雑な問い合わせにも対応可能です。これにより、直感的で自然な会話体験を提供する AI エージェントの構築が可能となり、コールセンターでの対話強化、ダイナミックなキャラクター設定、個性的なボイスキャラクターの創出など、さまざまな用途に活用できます。

Lyria RealTime - Gemini API と Google AI Studio でライブ音楽生成機能が利用可能になりました。テキスト プロンプトを用いて、連続したインストゥルメンタル音楽をリアルタイムで生成できます。Lyria RealTime では、WebSockets を活用して持続的なリアルタイム通信チャネルを確立し、モデルが小さな音楽フレーズを連続的に生成しながら、入力に応じて変化します。アプリに反応型のサウンドトラックを追加したり、新しいタイプの楽器をデザインしたりすることが可能です。Google AI Studio の PromptDJ-MIDI アプリでぜひ Lyria RealTime をお試しください。

Gemini 2.5 Pro Deep Think - 2.5 Pro 向けの実験的な推論モードもテスト中です。高度に複雑な数学やコーディングのプロンプトに対して、この Deep Think 機能は、非常に複雑な数学やコーディングのプロンプトにおいて驚異的なパフォーマンスを発揮しています。近いうちに、皆様にも広くご利用いただけるよう提供を開始する予定ですので、ご期待ください。

Gemma 3n - Gemma 3n は、スマートフォンやノートパソコン、タブレットなどの日常的な端末での利用に最適化された生成 AI のオープンモデルです。テキスト、音声、画像の入力に対応しています。本モデルは、Per-Layer Embedding(PLE)パラメーターキャッシュや MatFormer モデルアーキテクチャなど、パラメーター効率の高い処理に関する革新を取り入れており、計算負荷やメモリ使用量の削減に柔軟に対応可能です。


API の新機能

思考要約

デベロッパーがモデルのレスポンスを理解・デバッグしやすくするため、Gemini API の 2.5 Pro と Flash 向けの思考要約機能を追加しました。モデルの生の思考を抽出し、見出しや関連情報、ツール呼び出しを含む分かりやすい要約を生成します。Google AI Studio の思考連鎖の表示が更新され、新たな思考要約が反映されています。


思考バジェット

2.5 Flash では、思考バジェット機能を導入し、デベロッパーがモデルの思考量を制御できるようにすることで、アプリの性能、遅延、コストのバランスを最適化できるようにしました。この機能は近く 2.5 Pro にも拡張予定です。

from google import genai
from google.genai import types
 
client = genai.Client(api_key="GOOGLE_API_KEY")
prompt = "What is the sum of the first 50 prime numbers?"
response = client.models.generate_content(
  model="gemini-2.5-flash-preview-05-20",
  contents=prompt,
  config=types.GenerateContentConfig(
    thinking_config=types.ThinkingConfig(thinking_budget=1024,
      include_thoughts=True
    )
  )
)
 
for part in response.candidates[0].content.parts:
  if not part.text:
    continue
  if part.thought:
    print("Thought summary:")
    print(part.text)
    print()
  else:
    print("Answer:")
    print(part.text)
    print()
Python
ストリーミングを使用せずに思考要約を有効化し取得するサンプルコード。レスポンスとともに最終的な思考要約を返します。

新しい URL コンテキストツー

新たに実験的ツール「URL コンテキスト」を追加しました。これにより、提供されたリンクからより多くのコンテキストを取得できるようになります。このツールは単独でも、Google サーチとの連携など他のツールと組み合わせても利用可能です。Gemini API を使って独自のリサーチ エージェントを構築したいデベロッパーにとって、重要な基盤となるツールです。

from google import genai
from google.genai.types import Tool, GenerateContentConfig, GoogleSearch
 
client = genai.Client()
model_id = "gemini-2.5-flash-preview-05-20"
 
tools = []
tools.append(Tool(url_context=types.UrlContext))
tools.append(Tool(google_search=types.GoogleSearch))
 
response = client.models.generate_content(
    model=model_id,
    contents="Give me three day events schedule based on YOUR_URL. Also let me know what needs to taken care of considering weather and commute.",
    config=GenerateContentConfig(
        tools=tools,
        response_modalities=["TEXT"],
    )
)
 
for each in response.candidates[0].content.parts:
    print(each.text)
# get URLs retrieved for context
print(response.candidates[0].url_context_metadata)
Python
Google サーチと URL コンテキストを活用するためのサンプルコード

コンピュータ利用ツール

Project Marinerのブラウザ制御機能を、Gemini API 向けに新たなコンピュータ利用ツールとして提供開始しました。デベロッパーがこのツールをより簡単に活用できるよう、Google AI Studioからワンクリックでブラウザ制御エージェントを実行するために最適化された Cloud Run インスタンスの作成を可能にしました。現在、Automation Anywhere、UiPath、Browserbase といった企業との初期テストを開始しており、その貴重なフィードバックが、今夏のより広範な実験的デベロッパー向けリリースに向けた機能の改善に大きく寄与します。


構造化出力の改善

Gemini API は、より広範な JSON スキーマのサポートを実現しました。これには、特に要望の多かった参照用の「$ref」や、タプルのような構造を定義できる「prefixItems」などのキーワードに対応しています。


動画理解機能の向上

Gemini API は、YouTube の動画 URL や動画ファイルのアップロードをプロンプトに追加できるようになり、動画コンテンツの要約、翻訳、解析が可能になりました。今回のアップデートでは、動画の特定部分を切り出して解析できる動画クリッピング機能も追加されており、特に 8 時間を超える長時間動画にも柔軟に対応します。また、動的フレームレート(FPS)にも対応し、ゲームやスポーツなど速度が重要な動画には 60 FPS、速度がそれほど重要でない動画には 0.1 FPS を設定可能です。さらに、ユーザーがトークン消費を抑えられるよう、高画質(720p)、標準画質(480p)、低画質(360p)の 3 つの動画解像度を選択できる機能も導入しました。


非同期関数呼び出し

Live API のカスケード型アーキテクチャは、非同期関数呼び出しをサポートし、ユーザーとの会話を途切れることなくスムーズに維持できるようになりました。これにより、関数定義に behavior フィールドを追加して NON-BLOCKING に設定するだけで、関数をバックグラウンドで実行しながらも Live エージェントが応答生成を続けられます。詳細は Gemini API デベロッパー向けドキュメントをご参照ください。


バッチ API

現在、リクエストを簡単にバッチ処理でき、最大 24 時間以内に応答を受け取れる新しい API のテストを行っています。この API はインタラクティブ API の半額の料金で利用でき、レート制限も大幅に緩和される予定です。今夏以降、より広く展開する予定です。


開発を始めましょう

今年の I/O はこれで終了です!Gemini API と Google AI Studioを活用すれば、自然な音声による対話型 AI エージェントの構築から、コードの解析や生成ツールの開発まで、あらゆるアイデアを現実のプロダクトに変えることができます。最新のコードサンプルや詳細については、いつでも Gemini API のデベロッパー ドキュメントをご参照ください。

この発表と Google I/O 2025 のすべての最新情報は、io.google でご覧いただけます。