リアルタイム インタラクションの実現: Live API を使って開発する

2025年4月23日
Ivan Solovyev Product Manager
Shrestha Basu Mallick Group Product Manager Gemini API

Live API は、非常に低いレイテンシでオーディオ、動画、テキストをストリーミング処理するアプリケーションやインテリジェント エージェントを作る際に欠かせないツールです。真にインタラクティブなエクスペリエンスを作成し、カスタマー サポート ソリューション、教育プラットフォーム、リアルタイム モニタリング サービスへの扉を開くには、このスピードが最重要です。

Link to Youtube Video (visible only when JS is disabled)

先日、Gemini モデル向け Live API のプレビュー版リリースを発表しました。これは、デベロッパーが安定したスケーラブルなリアルタイム アプリケーションを開発できるようにするための重要な一歩です。Google AI StudioGemini APIVertex AI で最新の機能を試してみてください。


Live API の新機能

12 月に試験運用版をリリースしてから、皆さんのフィードバックにじっくりと耳を傾けてきました。そして Live API を一般提供する準備を整えるために、新機能を組み込んでいます。詳しくは、Live API のドキュメントをご覧ください。

セッション管理と信頼性の向上

  • コンテキスト圧縮によるセッションの延長: これまでの時間制限を超えた長時間のインタラクションを可能にします。スライド ウィンドウのメカニズムを使ってコンテキスト ウィンドウを圧縮し、コンテキストの長さを自動的に管理することで、コンテキストの制限による意図しない終了を防ぎます。

  • セッションの再開: 一時的なネットワークの中断が起きても、セッションを維持します。Live API は、サーバー側にセッション状態を保存(最大 24 時間)でき、再接続して中断した場所から再開できるハンドル(SESSION_RESUMPTION)も利用できます。

  • 円滑な切断通知: 接続をクローズ中の場合、GoAway サーバー メッセージが送信されるので、切断前の処理を円滑に進めることができます。

  • ターン カバレッジの設定: Live API で、すべてのオーディオと動画入力を継続的に処理するのか、エンドユーザーが話していることが検出されたときにのみキャプチャするのかを選択できます。

  • メディア解像度の設定: 入力メディアの解像度を選択することで、品質やトークン使用量を最適化できます。


インタラクションの挙動を細かく管理

  • 音声アクティビティ検出(VAD)の設定: 感度レベルの選択や、自動 VAD を完全に無効にして新しいクライアント イベント(activityStartactivityEnd)で手動ターン制御を行うことができます。

  • 中断処理の設定: ユーザーの入力があったときにモデルの応答を中断するかどうかを決定できます。

  • 柔軟なセッション設定: セッション中に、いつでもシステム指示などの設定を変更できます。


高度な出力と機能

  • 音声と言語のオプションの拡張: 音声出力で、2 つの新しい音声と 30 の新しい言語から選択できます。また、speechConfig で出力言語を設定できるようになります。

  • テキスト ストリーミング: 生成されたテキスト応答を徐々に受信することで、ユーザーにすばやく表示できるようにします。

  • トークン使用状況レポート: サーバー メッセージの usageMetadata フィールドで詳細なトークン数がわかるので、モードやプロンプト / 応答フェーズごとに使用状況を把握できます。


Live API の動作を確認する: 実際のアプリケーション

皆さんの次のプロジェクトのヒントにしていただくために、すでにアプリケーションで Live API を活用しているデベロッパーを紹介します。


Daily.co

Daily は、ウェブ、Android、iOS、C++ 向けの Pipecat オープンソース SDK に Live API サポートを組み込みました。

Pipecat Daily は、Live API を使って音声ベースのワード推測ゲーム Word Wrangler を作成し、クラシックな単語ゲームに AI でひとひねりを加えています。皆さんの「説明力」を試したあとは、開発方法を確認してみましょう!

Live API - Word Wrangler

LiveKit

LiveKit は、Live API のサポートを LiveKit エージェントに組み込みました。これは音声 AI エージェント開発用のフレームワークで、完全なオープンソース プラットフォームでサーバーサイド エージェント型アプリケーションを作成できます。

"「Live API が登場するまで、ストリーミング動画を直接取り込めるデベロッパー インターフェイスを搭載した LLM はありませんでした
」-
CEO、Russell d’Sa

開発された AI アシスタントのデモをご覧ください。皆さんと一緒にインターネットを閲覧しながら、見て考えたことをリアルタイムに教えてくれます。


Bubba.ai

Hey Bubba は、トラック ドライバー向けに特別に開発されたエージェント型音声ファースト AI アプリケーションです。Live API を利用してシームレスな多言語の音声コミュニケーションを実現しているので、ドライバーはハンズフリーで操作できます。主な機能は次のとおりです。

  • 貨物運送案件を検索し、詳しい情報を提供する。

  • ブローカー / 荷主に電話をかける。

  • 市場データに基づいて運賃交渉を行う。

  • 貨物の予約と運賃の確認を行う。

  • トラックの駐車場を検索して予約する。たとえば、ホテルに電話をかけて予約可能状況を確認するなど。

  • 荷主や受取人と受け渡しのスケジュールを調整する。

Live API は、ドライバーとの会話(関数呼び出しやコンテキスト キャッシュを活用し、今後の集荷などの問い合わせに答える)と、Bubba が電話で交渉や予約を行う際の会話の両方を支えています。Hey Bubba は、この機能によって、米国で最大かつ最も多様な職種向けの包括的な AI ツールとなっています。

Link to Youtube Video (visible only when JS is disabled)

今すぐお試しください

Live API は、皆さんの次のリアルタイム音声アプリケーションをすぐにサポートできます。使ってみたい方は、以下をお試しください。

楽しい開発を!