2 台のスマートフォンがライバルではなくなり、友達になったとしたらどうでしょう?世界一フレンドリーな競争キャンペーン Best Phones Forever が誕生します。このシリーズでは、17 のエピソードを通して、スマートフォンたちをさまざまな冒険に連れ出してきました。その結果、熱心なファンが生まれています。
このファン コミュニティと直接交流することは、常に Best Phones Forever の脚本の一部となっています。昨年、このシリーズを始めたときには、キャンペーンのトーンで LLM をトレーニングし、コミュニティ マネージャーが何千ものコメントに対して友情をテーマに返信できるようにしました。生成テクノロジーが急激に進歩したことは、私たちにとって、リアルタイム エンゲージメントの精神をさらに広げるチャンスだと認識しています。
ここでは、Best Phones Forever: AI Roadtrip を紹介します。これは、生成 AI を使ってファンを運転席に座らせ、キャラクターに命を吹き込む最初の実験です。
仕組みを説明しましょう。Instagram リールのエピソードでは、2 つのキャラクターが AI ドライブに出かける様子が説明されています。ファンが場所のアイデアをコメントすると、私たちのチームが専用のツールを使って、カスタム動画を数分で生成して応答します。16 時間以上のできるだけ多くのユニークな返信を作成したいと考えています。
パートナーの The Mill と Left Field Labs と協力し、Google AI モデルのスタックを使って、機械の効率性と人間の創造性のバランスをとることができるツールを設計しました。このテクノロジーが、他にはない創造的なアプリケーションを着想する手がかりになることを願っています。
実際の動作を確認するには、Instagram で @googlepixel_us にアクセスしてください。
ユーザーがおすすめの場所をコメントすると、その場所(たとえば「グランド キャニオン」)を生成エンジンに入力して、カスタムのアセットを生成します。
私たちのクリエイター チームは、それぞれのステップで選択、編集、レビュー、時には再プロンプトを繰り返し、すべての動画が Best Phones Forever の世界観にぴったり一致するようにします。
Gemini によって、キャンペーンのトーンに合ったシナリオを確実に作成できる必要がありました。つまり、適切なキャラクター、長さ、フォーマット、スタイルであると同時に、おもしろく、ユーザーがすすめた場所に忠実でなければなりません。
一番効果的にこれを行う方法は、長い指示を出すことではなく、プロンプトにたくさんの例を含めることでした。そこでライターが、さまざまな場所でどんな会話が考えられるかを示すため、それぞれの場所で Pixel と iPhone が登場する短いシナリオを書きました。
これをシステム プロンプトに含めて Gemini に渡すと、2 つのことを実現できます。1 つ目として、それぞれのスマートフォンが順番に 4~6 行の台詞を話すという、シナリオ生成に望まれる長さや構造を設定できます。2 つ目として、動画に求められる会話(場所の説明、スマートフォンがらみのユーモア、なごやかなジョーク、そして少なからぬオヤジギャグ)を出力するための条件付けになります。
プロンプトは、人間のライターとの共同ライターとなるように設計しました。そこで考慮すべき重要なポイントは、Gemini がさまざまな場所の特徴に注目し、Pixel と iPhone の会話にさまざまなアプローチを取り入れて、さまざまなシナリオを生成できるようにすることでした。そうすることで、人間のライターは多様なシナリオをもとに、一番効果的なシナリオを選択したり、編集したり、複数のシナリオを組み合わせたりすることができます。
幅広い回答が出力されるように、Gemini には会話形式でシナリオを書いてもらいました。Gemini があるシナリオを作成した後も、同じコンテキストで別のもの、そしてさらに別のもの、というように作成を依頼しました。以前に生成したシナリオを確認できるようにすることで、確実に別のことを扱う新しいシナリオが生成されるようにし、人間のキュレーターに幅広い選択肢を提供できました。
背景画像の生成には、Imagen 2 を使いました。この Google の最新一般公開モデルのおかげで、強力な自然言語制御によって出力を調整し、キャンペーンに必要なさまざまな場所やスタイルを生成できました。
Imagen には、あらゆる種類の場所の背景を作成してもらいたかったのですが、前景は運転する Pixel と iPhone なので、同じような構図を保ちたいとも考えました。
「パリ」や「月の裏側」といったプロンプトを使えば、その場所のように見える画像が生成されますが、スタイルも構図も一貫性がないものになりました。ズームアウトしすぎているものもあれば、白黒だったり、Pixel と iPhone が「運転」する場所がなかったりするものもありました。
指示を増やせば画像の質は向上しますが、場所に合わせて言葉を調整するのは時間がかかる手動作業なので、Gemini で画像プロンプトを生成することにしました。人間のライターが場所を入力すると、Gemini は人間が書いた多くのサンプル プロンプトを参考に、その場所のプロンプトを作成します。その後、そのプロンプトが Imagen に送信され、画像が生成されます。
AI で生成したプロンプトを使うと、構図の一貫性が保たれた、視覚的にもおもしろい画像が得られることがわかりました。しかし、動画の背景となるのは、静的なアセットだけではありません。Unreal Engine に取り込むアセットは、すべてシーンの重要な要素です。詳しくは、次のセクションで説明します。
完成したシナリオは、行ごとに Cloud Text-to-Speech に送信してオーディオを生成します。このプロセスは、Best Phones Forever キャンペーンのすべてのキャラクターの声で行ってきたものと同じです。
Cloud TTS を使って忠実で自然な音声を合成していますが、Pixel と iPhone の声には独自の特徴があります。この点に関しては、望むような音質やリズムを実現できる AI モデルは見つかりませんでした。そこで、内部ツールを使って強調や抑揚を加えることで、キャラクターに命を吹き込みます。
動画の中には、会話のほかに環境音が必要になるものもあります。そこで、サウンド エフェクトの作成、実地での録音、そしてもちろん MusicFX による AI 生成オーディオを組み合わせ、その場所のサウンドスケープを作成して臨場感を高めます。
生成したすべての構成アセットは、自動的にレンダリング キューに入り、Unreal Engine に取り込まれます。そして 3D シーンで iPhone、Pixel、車と合成します。
背景画像は、シーンの背面と側面を包み込むように配置します。これは、正面からスマートフォンと車を映したときの背景になるだけでなく、カメラが動いて話しているキャラクターにズームした場合は、遠近法で角度がついたような背景にもなります。背景の一部は、車のボンネットやスマートフォンのカメラのガラスに反射します。空とシーンの照明もお互いに作用し合い、ディテールと臨場感を向上させる要素になります。
私たちのノンリニア アニメーション エディタを使うと、カメラ位置によらず、スマートフォンにモーションを追加できます。たとえば、スマートフォンが質問する場合は、窓の外やフロントガラスの向こう側を見るのではなく、ためらいがちに体を傾けて、もう 1 台のスマートフォンの方を向くことがあります。発言、ジョーク、うなずき、驚きなどは、すべて独自のアニメーションになっており、すべての状態間でシームレスに補間されます。
さらに、それぞれの動画の特徴が出るように、ダイナミック要素やテクスチャを有効にすることができます。たとえば、田舎ならボンネットに泥が飛び散り、(ほとんどの)気象条件に合わせてさまざまな帽子をかぶります。惑星探査機、潜水艦、宇宙船などのように、場所によって大幅に車を変更できるとよい場所もあります。
レンダリングを始める前に、動画の VO、カメラカット、主なアニメーションをプレビューすることもできます。準備が整ったら、すべてのレンダリング ジョブを Google Cloud Compute の 15 台の仮想マシンで分散処理します。レンダリング時間を含め、最初から最後までわずか 10 分ほどで短い動画を生成できます。
生成 AI を使ってクリエイティブな開発や制作を行うのは、新しい考え方ではありません。しかし、うれしいことに、Google の最新のプロダクション対応モデルを斬新な方法で組み合わせ、アイデアを大規模リアルタイム配信につなげるアプリケーションを構築することができました。
通常、Best Phones Forever の動画は、シナリオ作成、アニメーション作成、レンダリングに数週間かかります。しかし、私たちは、このツールを使って 1 日に数百本のカスタム ミニエピソードを生成したいと考えています。そのすべてが、ソーシャルの Pixel コミュニティの皆さんの想像力に触発されたものです。
目指すクリエイティブがどのようなものであっても、Gemini API と Imagen API を使ってできることを、今回の実験を通してわずかでも理解していただければ幸いです。