人と人との間のコミュニケーションには話し言葉、視覚的な手がかり、リアルタイムの調整が介在し、自然とマルチモーダルになります。Gemini の Multimodal Live API では、人とコンピュータのインタラクションにおいて、これと同レベルの自然さを実現しました。視覚的な入力が利用可能で、テキスト、音声、動画がシームレスに統合された、コンテキストを意識したソリューションをリアルタイムで受け取れる、よりインタラクティブな AI との会話を想像してみましょう。このようなタイプのインタラクションを可能にする Gemini 2.0 の Multimodal Live API は、Google AI Studio と Gemini API で利用できます。このテクノロジーを活かせば、世界の動きに直ちに反応し、リアルタイム データを活用するアプリケーションを開発できます。
Multimodal Live API は、WebSockets を利用してロー レイテンシのサーバー間コミュニケーションを促進する、ステートフル API です。この API では、関数呼び出し、コード実行、検索によるグラウンディングなどのツールがサポートされています。また、1 回のリクエスト中で複数のツールを組み合わせることもできるので、複数回プロンプトしなくても総合的な応答を得ることができます。これにより、デベロッパーはより複雑な AI インタラクションをより効率的に創造できます。
Multimodal Live API の主な機能は次のとおりです。
Multimodal Live API を利用すれば、さまざまなリアルタイムのインタラクティブ アプリケーションを開発できます。この API を効果的に導入したユースケースの例をいくつかご紹介しましょう。
この新しい機能に対する理解を深め、すぐに開発に活かせるように、リアルタイム ストリーミング機能を紹介するデモ アプリケーションを多数ご用意しています。
マイク、カメラ、または画面入力をストリーミングするためのスターター ウェブ アプリケーション。開発の拠点として最適です。
Link to Youtube Video (visible only when JS is disabled)
完全なコードとスタートガイドは、Github(https://github.com/google-gemini/multimodal-live-api-web-console)で入手できます。
Gemini と天気についてチャットしましょう。地域を選択すると、Gemini 上のキャラクターがその地域の天候について説明してくれます。会話の合間であっても、いつでも補足の質問をすることができます。
Link to Youtube Video (visible only when JS is disabled)
では、実際に使ってみましょう。Google AI Studio でマルチモーダル ライブ ストリーミングを直接実地体験することも、完全にマスターしたい場合は詳しいドキュメントやコードサンプルを参考に今すぐ API を利用した開発を開始することもできます。
Daily と提携し、同社の pipecat フレームワークによるシームレスな統合を提供しており、デベロッパーはアプリに簡単にリアルタイム機能を追加できます。Daily.co(pipecat フレームワークのクリエイター)は、動画や音声 API のプラットフォームであり、デベロッパーはこれを利用して、自分のウェブサイトやアプリに簡単にリアルタイム動画や音声のストリーミングを追加できます。Daily の統合ガイドを確認し、開発を開始しましょう。
皆さんの作品を拝見するのが楽しみです。フィードバックや、この新しい API を使って開発した素晴らしいアプリケーションをぜひ共有してください!