生成 AI による Talking Character の強化

5月 16, 2023
Jay Ji Senior Product Manager Google PI
Christian Frueh Software Engineer Google Research
Pedro Vergani Staff Designer Insight UX

AI を活用したカスタマイズ可能なキャラクター テンプレート: 深みのあるインタラクティブなエクスペリエンスを生み出す LLM の力を実証

Google のパートナー イノベーション チームは一連の生成 AI テンプレートを開発しました。これらのテンプレートは、大規模言語モデルを既存の Google API やテクノロジーと組み合わせると、特定の業界のユースケースがどのように解決できるかを示しています。

Talking Character はカスタマイズ可能な 3D アバター ビルダーであり、デベロッパーが生成 AI でアニメーション キャラクターに命を吹き込むことがでるようにします。デベロッパーとユーザーの両方がアバターの性格、バックストーリー、ナレッジベースを設定できるため、特定のトピックに関して独自の視点を持った専門のエキスパートを生み出せます。その結果、ユーザーはテキストと口頭の両方でアバターと会話できるようになります。

私たちは、基本のキャラクター モデルの Buddy をサンプルとして定義しました。Buddy は人なつこい犬であり、ユーザーが犬の典型的な実体験について会話できるようするために、バックストーリー、性格、ナレッジベースが設定されています。また、信頼できる保険代理人やその他のペルソナとして振る舞えるようにするために、性格やバックストーリーを変更する方法の例も示しています。

コード テンプレートは次の 2 つの主な目標を達成するためのものです。

1 つ目は、デベロッパーとユーザーにプロンプト エンジニアリングの強力なコンセプトを試すためのテスト インターフェースを提供して、キャラクターを開発したり、PaLM API 上で特定のデータセットを活用して独自のエクスペリエンスを作成したりしてもらうことです。

2 つ目は、生成 AI のインタラクションを、シンプルなテキストやチャット主導のエクスペリエンスを超えて拡張する方法を示すことです。デベロッパーは、音声文字変換やテキスト読み上げなどのクラウド サービスと機械学習モデルを活用してキャラクターをアニメーション化することで、ユーザーにとってより自然なエクスペリエンスを作成できるようになります。

このタイプのテクノロジーの潜在的なユースケースは多種多様であり、その用途には、ゲームやストーリーのキャラクターと物語を作成するために使用できるインタラクティブかつクリエイティブなツール、複雑なシステムやプロセスにも対応可能な技術サポート、特定のプロダクトやサービスに合わせたカスタマー サービス、ディベートの訓練、言語学習、特定の主題の教育、さらには音声や操作機能によるブランド アセットの活性化などが含まれます。

技術的な実装

対話

いくつかの独立したテクノロジー コンポーネントを使用して、3D アバターがユーザーと自然な会話を行えるようにしています。まず、Google の音声文字変換サービスを使用して音声入力をテキストに変換します。これは、後で PaLM API に入力されます。次に、テキスト読み上げを使用して、言語モデルのレスポンスのために人間らしく聞こえる声を生成します。

ai talking character 3

アニメーション

インタラクティブな視覚体験を実現するために、生成された声のパターンと抑揚に応じて動く「話す」3D アバターを作成しました。MediaPipe フレームワークを使用して、音声とブレンドシェイプを対応させる新しい機械学習モデルを活用することにより、声のパターンに同期する顔の表情と唇の動きを生成しました。

ブレンドシェイプは、重み付けの小さなセットを使用して 3D アバターをアニメーション化するために使用される制御パラメータです。この音声とブレンドシェイプを対応させるモデルは、これらの重み付けを音声入力からリアルタイムで予測し、アニメーション化されたアバターを駆動します。このモデルは、Tensorflow を使用して「話している顔」の動画からトレーニングされます。この場合、この論文で説明されているように、3D 顔追跡を使用して、音声から顔のブレンドシェイプへのマッピングを学習します。

生成されたブレンドシェイプの重み付けをモデルから取得したら、オープンソースの JavaScript 3D ライブラリ three.js を使用して、それらの重み付けで 3D アバターの顔の表情と唇の動きをモーフィングします。

キャラクター デザイン

Buddy の作成中は、ユーザーを Buddy の内容豊かなバックストーリーや独特の性格に感情的に結び付けることを模索しました。目標は、エンゲージメントのレベルを上げるだけでなく、たとえば、ユーモアがあることなど、キャラクターの特性がどのようにインタラクションを形作るかを示すことでした。

コンテンツ ライターがこのキャラクターの基礎になる魅力的なバックストーリーを作成しました。このバックストーリーはナレッジベースと併せて、キャラクターの性格に深みを与え、命を吹き込みます。

さらに、インタラクションの進み具合を示すものとして、顔の表情などの認識可能な、言語以外の手がかりを組み込むことを模索しました。たとえば、キャラクターが考え込んでいるように見える場合、それはモデルがレスポンスを組み立てているサインです。

プロンプト構造

最後に、シンプルなテキスト入力でアバターを簡単にカスタマイズできるようにするために、性格、バックストーリー、ナレッジベースの 3 つの部分を持つプロンプト構造を設計しました。3 つのすべてのピースを組み合わせて 1 つの大きなプロンプトにし、コンテキストとして PaLM API に送信します。

ai talking character 4

パートナーシップとユースケース

Z 世代に愛されている ZEPETO はアバター中心のソーシャル ユニバースであり、ユーザーは、デジタル ペルソナを完全にカスタマイズしたり、ファッションのトレンドを調べたりできるほか、生き生きとした自己表現やバーチャルなインタラクションを行えます。Google の Talking Character テンプレートにより、ユーザーは独自のアバターを作成して、さまざまな服やアクセサリーを身に付けさせ、バーチャル世界で他のユーザーとやり取りできるようになります。私たちは ZEPETO と連携して、50 を超えるブレンドシェイプでメタバース アバターをテストし、すばらしい結果を得ています。

ai talking character 5

「AI キャラクターが ZEPETO アバターとして命を吹き込まれ、深みのある内容を流暢に話すのを見ることは実に感動的です。私たちは、高度な言語モデルとアバターの組み合わせにより、メタバースでできることが無限に広がると確信しており、その一端を担っていることをうれしく思っています」- ZEPETO、CEO、Daewook Kim 氏

このデモは、メタバースのユースケースに限定されていません。キャラクターを使えば、あらゆる領域でテキスト コーパスやナレッジベースを活性化できるようになることを示しています。

たとえば、ゲームの場合、LLM を使った NPC を活用すれば、ゲームのユニバースを豊かにし、ゲームの世界、歴史、キャラクターについて自然言語で話し合うことによりユーザー エクスペリエンスに深みを与えられるようになるでしょう。

教育では、学生が学習するさまざまな科目を表すキャラクター、対話形式の学習クイズのシナリオのさまざまな難易度レベルを表すキャラクター、さまざまな文化、場所、人物、時代について学習するのに役立つ歴史上の人物や出来事を表すキャラクターを作成できます。

商取引では、Talking Character キットの使用により、ブランドやストアを活性化できるほか、e コマース市場で販売者を支援して、ユーザー エクスペリエンスの向上のためにストアをより魅力的にカスタマイズするツールを誰もが使えるようになります。また、このキットは、顧客が小売の環境を探索したり、現実世界でのショッピング体験をゲーム化したりするときに、顧客のアバターを作成するために使用できます。

さらに広く見れば、あらゆるブランド、プロダクト、サービスでこのデモを使用して、声のトーンのナレッジ セットに基づいてユーザーとやり取りする「話すエージェント」に命を吹き込むと、ブランド アンバサダー、カスタマー サービス担当者、営業アシスタントとして活用できます。

オープンソースとデベロッパー サポート

Google のパートナー イノベーション チームは一連の生成 AI テンプレートを開発し、LLM を既存の Google API やテクノロジーと組み合わせると、特定の業界のユースケースを解決できることを示しました。各テンプレートは今年 5 月の I/O で発表され、デベロッパーやパートナーが開発に利用できるようにするためオープンソース化されました。

Google はいくつかのパートナーと EAP に関して緊密に連携しており、API がそれぞれの市場でリリースされる限り(アジア太平洋地域でリリースされる時期は未定)、これらのテンプレートに基づいて特定の機能やエクスペリエンスを共同開発してリリースする予定です。話すエージェントもオープンソース化されるため、デベロッパーやスタートアップ企業は、私たちが作成したエクスペリエンスをベースにして構築することができます。Google のパートナー イノベーション チームは、地域の市場と連携して機能やツールの開発を続け、すでに進行中の研究開発を展開していきます。こちらの GitHub でプロジェクトをご覧ください。

謝辞

このプロジェクトに貴重な貢献をしてくださった次の皆さんに感謝いたします。(敬称略)Mattias Breitholtz、Yinuo Wang、Vivek Kwatra、Tyler Mullen、Chuo-Ling Chang、Boon Panichprecha、Lek Pongsakorntorn、Zeno Chullamonthon、Yiyao Zhang、Qiming Zheng、Joyce Li、Xiao Di、Heejun Kim、Jonghyun Lee、Hyeonjun Jo、Jihwan Im、Ajin Ko、Amy Kim、Dream Choi、Yoomi Choi、KC Chung、Edwina Priest、Joe Fry、Bryan Tanaka、Sisi Jin、Agata Dondzik、Miguel de Andres-Clavera