Gemini 2.0: リアルタイムのマルチモーダルインタラクションでアプリをレベルアップする

2024年12月23日

Ivan Solovyev Product Manager

人と人との間のコミュニケーションには話し言葉、視覚的な手がかり、リアルタイムの調整が介在し、自然とマルチモーダルになります。Gemini の Multimodal Live API では、人とコンピュータのインタラクションにおいて、これと同レベルの自然さを実現しました。視覚的な入力が利用可能で、テキスト、音声、動画がシームレスに統合された、コンテキストを意識したソリューションをリアルタイムで受け取れる、よりインタラクティブな AI との会話を想像してみましょう。このようなタイプのインタラクションを可能にする Gemini 2.0 の Multimodal Live API は、Google AI Studio と Gemini API で利用できます。このテクノロジーを活かせば、世界の動きに直ちに反応し、リアルタイムデータを活用するアプリケーションを開発できます。

動作の仕組み

Multimodal Live API は、WebSockets を利用してローレイテンシのサーバー間コミュニケーションを促進する、ステートフル API です。この API では、関数呼び出し、コード実行、検索によるグラウンディングなどのツールがサポートされています。また、1 回のリクエスト中で複数のツールを組み合わせることもできるので、複数回プロンプトしなくても総合的な応答を得ることができます。これにより、デベロッパーはより複雑な AI インタラクションをより効率的に創造できます。

Multimodal Live API の主な機能は次のとおりです。

双方向ストリーミング: テキスト、音声、動画データの同時送受信に対応します。

サブ秒レイテンシ: 600 ミリ秒で最初のトークンを出力し、シームレスなリアクションに対する人の期待値に合わせて反応時間を調整します。

自然な音声会話: 割り込み機能や音声アクティビティ検知機能など、人のような音声でのインタラクションをサポートし、AI とのより流動的な対話を実現します。

動画の理解: 動画入力を処理して理解する機能が備わっているので、モデルは音声と動画の両方のコンテキストを組み合わせて、より情報に基づいた繊細な応答をすることができます。こうしたコンテキスト認識により、ワンランク上のインタラクションが実現します。

ツールの統合: 1 回の API 呼び出しの中に複数のツールを統合できるので、API の機能が向上し、ユーザーの代わりにアクションを実行して複雑なタスクを解決することが可能になります。

ステアラブルボイス: 多彩な感情を伝えることができる、ハイレベルな表現力を備えた 5 種類の声の選択肢が用意されています。これにより、よりパーソナライズされた魅力的なユーザーエクスペリエンスが実現します。

マルチモーダルライブストリーミングの実践

Multimodal Live API を利用すれば、さまざまなリアルタイムのインタラクティブアプリケーションを開発できます。この API を効果的に導入したユースケースの例をいくつかご紹介しましょう。

リアルタイムバーチャルアシスタント: ユーザーの画面を観察し、そのユーザーにぴったりのアドバイスをリアルタイムで提供してくれるアシスタントを想像してみてください。このアシスタントは、探しているものがどこにあるか教えてくれたり、ユーザーに代わってアクションを実行してくれたりします。

適応型教育ツール: Multimodal Live API は、学習者の習得ペースに適応できる教育アプリケーションの開発をサポートしています。たとえば、学習者のリアルタイムの発音と理解度に基づいて、演習の難易度を調整できる言語学習アプリなど。

この新しい機能に対する理解を深め、すぐに開発に活かせるように、リアルタイムストリーミング機能を紹介するデモアプリケーションを多数ご用意しています。

マイク、カメラ、または画面入力をストリーミングするためのスターターウェブアプリケーション。開発の拠点として最適です。

Link to Youtube Video (visible only when JS is disabled)

完全なコードとスタートガイドは、Github（https://github.com/google-gemini/multimodal-live-api-web-console）で入手できます。

Gemini と天気についてチャットしましょう。地域を選択すると、Gemini 上のキャラクターがその地域の天候について説明してくれます。会話の合間であっても、いつでも補足の質問をすることができます。

Link to Youtube Video (visible only when JS is disabled)

Multimodal Live API の使用を開始する

では、実際に使ってみましょう。Google AI Studio でマルチモーダルライブストリーミングを直接実地体験することも、完全にマスターしたい場合は詳しいドキュメントやコードサンプルを参考に今すぐ API を利用した開発を開始することもできます。

Daily と提携し、同社の pipecat フレームワークによるシームレスな統合を提供しており、デベロッパーはアプリに簡単にリアルタイム機能を追加できます。Daily.co（pipecat フレームワークのクリエイター）は、動画や音声 API のプラットフォームであり、デベロッパーはこれを利用して、自分のウェブサイトやアプリに簡単にリアルタイム動画や音声のストリーミングを追加できます。Daily の統合ガイドを確認し、開発を開始しましょう。

皆さんの作品を拝見するのが楽しみです。フィードバックや、この新しい API を使って開発した素晴らしいアプリケーションをぜひ共有してください！

投稿先:

Gemini 2.0: リアルタイムのマルチモーダル インタラクションでアプリをレベルアップする

動作の仕組み

マルチモーダル ライブ ストリーミングの実践

Multimodal Live API の使用を開始する

Gemini 2.0: リアルタイムのマルチモーダルインタラクションでアプリをレベルアップする

マルチモーダルライブストリーミングの実践