Live API は、非常に低いレイテンシでオーディオ、動画、テキストをストリーミング処理するアプリケーションやインテリジェント エージェントを作る際に欠かせないツールです。真にインタラクティブなエクスペリエンスを作成し、カスタマー サポート ソリューション、教育プラットフォーム、リアルタイム モニタリング サービスへの扉を開くには、このスピードが最重要です。
Link to Youtube Video (visible only when JS is disabled)
先日、Gemini モデル向け Live API のプレビュー版リリースを発表しました。これは、デベロッパーが安定したスケーラブルなリアルタイム アプリケーションを開発できるようにするための重要な一歩です。Google AI Studio の Gemini API と Vertex AI で最新の機能を試してみてください。
12 月に試験運用版をリリースしてから、皆さんのフィードバックにじっくりと耳を傾けてきました。そして Live API を一般提供する準備を整えるために、新機能を組み込んでいます。詳しくは、Live API のドキュメントをご覧ください。
SESSION_RESUMPTION
)も利用できます。GoAway
サーバー メッセージが送信されるので、切断前の処理を円滑に進めることができます。activityStart
、activityEnd
)で手動ターン制御を行うことができます。speechConfig
で出力言語を設定できるようになります。usageMetadata
フィールドで詳細なトークン数がわかるので、モードやプロンプト / 応答フェーズごとに使用状況を把握できます。皆さんの次のプロジェクトのヒントにしていただくために、すでにアプリケーションで Live API を活用しているデベロッパーを紹介します。
Daily は、ウェブ、Android、iOS、C++ 向けの Pipecat オープンソース SDK に Live API サポートを組み込みました。
Pipecat Daily は、Live API を使って音声ベースのワード推測ゲーム Word Wrangler を作成し、クラシックな単語ゲームに AI でひとひねりを加えています。皆さんの「説明力」を試したあとは、開発方法を確認してみましょう!
LiveKit は、Live API のサポートを LiveKit エージェントに組み込みました。これは音声 AI エージェント開発用のフレームワークで、完全なオープンソース プラットフォームでサーバーサイド エージェント型アプリケーションを作成できます。
"「Live API が登場するまで、ストリーミング動画を直接取り込めるデベロッパー インターフェイスを搭載した LLM はありませんでした
」- CEO、Russell d’Sa
開発された AI アシスタントのデモをご覧ください。皆さんと一緒にインターネットを閲覧しながら、見て考えたことをリアルタイムに教えてくれます。
Hey Bubba は、トラック ドライバー向けに特別に開発されたエージェント型音声ファースト AI アプリケーションです。Live API を利用してシームレスな多言語の音声コミュニケーションを実現しているので、ドライバーはハンズフリーで操作できます。主な機能は次のとおりです。
Live API は、ドライバーとの会話(関数呼び出しやコンテキスト キャッシュを活用し、今後の集荷などの問い合わせに答える)と、Bubba が電話で交渉や予約を行う際の会話の両方を支えています。Hey Bubba は、この機能によって、米国で最大かつ最も多様な職種向けの包括的な AI ツールとなっています。
Link to Youtube Video (visible only when JS is disabled)
Live API は、皆さんの次のリアルタイム音声アプリケーションをすぐにサポートできます。使ってみたい方は、以下をお試しください。
楽しい開発を!