リアルタイムインタラクションの実現: Live API を使って開発する

2025年4月23日

Ivan Solovyev Product Manager

Shrestha Basu Mallick Product Google DeepMind

Live API は、非常に低いレイテンシでオーディオ、動画、テキストをストリーミング処理するアプリケーションやインテリジェントエージェントを作る際に欠かせないツールです。真にインタラクティブなエクスペリエンスを作成し、カスタマーサポートソリューション、教育プラットフォーム、リアルタイムモニタリングサービスへの扉を開くには、このスピードが最重要です。

Link to Youtube Video (visible only when JS is disabled)

先日、Gemini モデル向け Live API のプレビュー版リリースを発表しました。これは、デベロッパーが安定したスケーラブルなリアルタイムアプリケーションを開発できるようにするための重要な一歩です。Google AI Studio の Gemini API と Vertex AI で最新の機能を試してみてください。

Live API の新機能

12 月に試験運用版をリリースしてから、皆さんのフィードバックにじっくりと耳を傾けてきました。そして Live API を一般提供する準備を整えるために、新機能を組み込んでいます。詳しくは、Live API のドキュメントをご覧ください。

セッション管理と信頼性の向上

コンテキスト圧縮によるセッションの延長: これまでの時間制限を超えた長時間のインタラクションを可能にします。スライドウィンドウのメカニズムを使ってコンテキストウィンドウを圧縮し、コンテキストの長さを自動的に管理することで、コンテキストの制限による意図しない終了を防ぎます。

セッションの再開: 一時的なネットワークの中断が起きても、セッションを維持します。Live API は、サーバー側にセッション状態を保存（最大 24 時間）でき、再接続して中断した場所から再開できるハンドル（SESSION_RESUMPTION）も利用できます。

円滑な切断通知: 接続をクローズ中の場合、GoAway サーバーメッセージが送信されるので、切断前の処理を円滑に進めることができます。

ターンカバレッジの設定: Live API で、すべてのオーディオと動画入力を継続的に処理するのか、エンドユーザーが話していることが検出されたときにのみキャプチャするのかを選択できます。

メディア解像度の設定: 入力メディアの解像度を選択することで、品質やトークン使用量を最適化できます。

インタラクションの挙動を細かく管理

音声アクティビティ検出（VAD）の設定: 感度レベルの選択や、自動 VAD を完全に無効にして新しいクライアントイベント（activityStart、activityEnd）で手動ターン制御を行うことができます。

中断処理の設定: ユーザーの入力があったときにモデルの応答を中断するかどうかを決定できます。

柔軟なセッション設定: セッション中に、いつでもシステム指示などの設定を変更できます。

高度な出力と機能

音声と言語のオプションの拡張: 音声出力で、2 つの新しい音声と 30 の新しい言語から選択できます。また、speechConfig で出力言語を設定できるようになります。

テキストストリーミング: 生成されたテキスト応答を徐々に受信することで、ユーザーにすばやく表示できるようにします。

トークン使用状況レポート: サーバーメッセージの usageMetadata フィールドで詳細なトークン数がわかるので、モードやプロンプト / 応答フェーズごとに使用状況を把握できます。

Live API の動作を確認する: 実際のアプリケーション

皆さんの次のプロジェクトのヒントにしていただくために、すでにアプリケーションで Live API を活用しているデベロッパーを紹介します。

Daily.co

Daily は、ウェブ、Android、iOS、C++ 向けの Pipecat オープンソース SDK に Live API サポートを組み込みました。

Pipecat Daily は、Live API を使って音声ベースのワード推測ゲーム Word Wrangler を作成し、クラシックな単語ゲームに AI でひとひねりを加えています。皆さんの「説明力」を試したあとは、開発方法を確認してみましょう！

LiveKit

LiveKit は、Live API のサポートを LiveKit エージェントに組み込みました。これは音声 AI エージェント開発用のフレームワークで、完全なオープンソースプラットフォームでサーバーサイドエージェント型アプリケーションを作成できます。

^"^{「Live API が登場するまで、ストリーミング動画を直接取り込めるデベロッパーインターフェイスを搭載した LLM はありませんでした
」-} ^{CEO、Russell d’Sa}

開発された AI アシスタントのデモをご覧ください。皆さんと一緒にインターネットを閲覧しながら、見て考えたことをリアルタイムに教えてくれます。

Bubba.ai

Hey Bubba は、トラックドライバー向けに特別に開発されたエージェント型音声ファースト AI アプリケーションです。Live API を利用してシームレスな多言語の音声コミュニケーションを実現しているので、ドライバーはハンズフリーで操作できます。主な機能は次のとおりです。

貨物運送案件を検索し、詳しい情報を提供する。

ブローカー / 荷主に電話をかける。

市場データに基づいて運賃交渉を行う。

貨物の予約と運賃の確認を行う。

トラックの駐車場を検索して予約する。たとえば、ホテルに電話をかけて予約可能状況を確認するなど。

荷主や受取人と受け渡しのスケジュールを調整する。

Live API は、ドライバーとの会話（関数呼び出しやコンテキストキャッシュを活用し、今後の集荷などの問い合わせに答える）と、Bubba が電話で交渉や予約を行う際の会話の両方を支えています。Hey Bubba は、この機能によって、米国で最大かつ最も多様な職種向けの包括的な AI ツールとなっています。

Link to Youtube Video (visible only when JS is disabled)