実験をしてみましょう。この写真をマルチモーダル モデルの Gemini に見せ、何が見えているかを説明してもらいます。
何が見えているか教えてください
Gemini: 人の右手が見えます。その手は指を広げて開いています。
では、こちらを試してみましょう。
Gemini: 木のドアをノックしている人。
こちらはどうでしょうか。
Gemini: 2 本の指を伸ばした手が見えます。これは数字の 2 を表す一般的なシンボルです。
では...もし Gemini にこれらすべての画像を一緒にして考えてもらった場合はどうでしょうか?
私が何をしていると思いますか?ヒントはゲームです。
Gemini: あなたはじゃんけんをしています。
いいですね。他には何を試してみましょうか。Gemini がこのパターンに気づくことができるかどうか見ていきましょう。
私はじゃんけんをしています。私のゲームプレイにパターンがあることに気づきましたか?
Gemini: あなたはグーとチョキを交互に出しています。
見事にパターンを見つけました!しかし、Gemini は本当にこのゲームの仕組みを知っているのでしょうか?次の質問をしてみましょう。
では...これは良い戦略だと思いますか?
Gemini: いいえ、これは良い戦略ではありません。対戦相手はすぐにあなたのパターンを学び、毎回勝てるようになってしまいます。出す手をもっとランダムにしたほうがいいでしょう。
良いアドバイスですね、Gemini!では最後に、あなたのマルチモーダル推論能力を試してみましょう。プロンプトは次のとおりです。
これは秘密のメッセージです。何と言っているでしょうか?
わかりますか?私たちは Gemini に解いてもらいましたが、この投稿には答えを載せず、伏せておきますね。🙂
今行ったことはすべて、「マルチモーダル プロンプト」の一例です。私たちは基本的に、Gemini にさまざまな方式の組み合わせ(この場合は画像とテキスト)を与え、次に何が起こるかを予測して応答させています。これらの方式をシームレスに組み合わせる Gemini の能力により、新たな可能性が実現します。
この投稿では、Gemini の実践デモ動画で使用したプロンプト アプローチをいくつかご紹介します。Gemini はまもなく Google AI Studio で利用できるようになります。ウェブベースの無料デベロッパー ツールである Google AI Studio では、Gemini を使用して独自のマルチモーダル プロンプトを試すことが可能です。このスターター プロンプトとアイデアのガイドが、独自のアイデアを探求し始めるきっかけとなることを願っています。
Link to Youtube Video (visible only when JS is disabled)
ロジックとパズルは、Gemini をテストする楽しい方法です。左から右への空間的推論と太陽系に関する知識の両方を必要とする問題を試してみましょう。
この順番は正しいですか?太陽からの距離を考慮して、その理由を説明してください。
Gemini: いいえ、正しい順番は太陽、地球、土星です。太陽系の中心に最も近いところにあるのが太陽で、次に地球、次に土星が続きます。
すばらしい!こちらは、パインウッド ダービーの課題にインスパイアされた別の問題です。
空気力学的に優れているのは左側と右側のどちらの車ですか?視覚的な情報を交えて、その理由を具体的に説明してください。
Gemini: 右側の車のほうが空気力学的に優れています。右側の車は車高がより低く、より流線形の形状をしています。左側の車は車高がより高く、角ばった形状をしているため、空気力学的に劣ります。
次に、Gemini に一連の画像を見せたらどうなるでしょうか?ジェスチャー ゲームの静止画をいくつか表示し、Gemini に何の映画か推測してもらいましょう。
何の映画のシーンを演じているか当ててください。
Gemini: マトリックス
正解!でも、具体的にはどのシーンでしょう?私の体の動きを見てください。
Gemini: ネオが弾丸をかわすシーン。
連続した画像を調べてみることで、Gemini がどうやって時間をかけて推論しているのかを掘り下げることができます。古典的な手品を試してみましょう。
何をしているのか説明してください。
Gemini: 右手にコインを持っています。
コインはどこにあると思いますか?
Gemini: コインは右手にあります。
確かに、これまで見てきたものを考えると論理的な回答です。しかし、Gemini に次の画像を見せながら、手品をしてみると...
さて、何が起こったでしょう?
Gemini: コインがなくなりました。
Gemini はコインがなくなったことに気づきます。しかし、何が起こったかを要約することはできるのでしょうか。
最初の画像から順を追って、何が起こったかを要約してください。
Gemini:
あなたは最初、右手にコインを持っていました。
次に、あなたが手を動かすとコインが消えました。
3. あなたはそれから、コインが消えたことを示しました。
Gemini は、この会話の全体的なコンテキスト(テキストと画像の両方)を活用して、回答を要約しています。最後に、次の質問をしましょう。
どうやって消えたのか説明してもらえますか?
Gemini: コインは掌に隠されていました。
Gemini はしっかりと推測しています!でも、タネ明かしはしませんよ 🙂。
記憶力とロジックを必要とするトリックを試してみましょう。古典的なボールとカップのシャッフル ゲームです。今回は、Gemini に各ステップに分けて説明します。まず、次の説明で基本事項を明確にしておきましょう。
説明: ポジション 1(左)、ポジション 2(中央)、ポジション 3(右)に 3 つのカップがあります。
「空、空、ボール」というシンプルな読み上げでボールの位置を覚えてもらうことにします。次に、Gemini に 2 つのシャッフル例を示します。
画像:
シャッフル: 2 と 3
現在の状態: 空、ボール、空
画像:
シャッフル: 1 と 2
現在の状態: ボール、空、空
この 2 つの例では、カップのシャッフルがどのように見えるか、そしてボールの位置がどのように変化しているかを示しています。では、Gemini が初めて遭遇するシャッフルに適応できるかどうか見てみましょう。
画像:
シャッフル:
Gemini は次のように回答しました。
1 と 3
現在の状態: 空、空、ボール
Gemini は理解できました!これらの画像を見て、カップ 1 とカップ 3 が入れ替わっていると正しく推測しました。そして、ボールの位置が変化する方法について正しく推論しました。次の質問をしてみましょう。
ボールがどこにあるのか、どうやってそこにたどり着いたのかを段階的に要約してください。
Gemini: ボールはカップ 3 にあります。
最初はボールがカップ 3 にあり、まずカップ 2 と 3 がシャッフルされました。これにより、ボールはカップ 2 に移りました。2 回目のシャッフルはカップ 1 と 2 でした。これにより、ボールはカップ 1 に移動しました。3 回目のシャッフルはカップ 1 と 3 でした。これにより、ボールはカップ 3 に移動しました。
Gemini は正しく答えただけでなく、ゲームの経過を正確に要約しました。もちろん、このような課題が常にうまくいくとは限りません。ときには、フェイントの動き(2 つの空のカップをシャッフルする)でつまずくような場合もありますが、それにも正解することもあります。しかし、このようなシンプルなプロンプトにより、非常に楽しく Gemini を迅速にテストできます。シャッフルの順序など、プロンプト内の変数を変更してその結果を確認することもできます。
独自のアプリで Gemini を使用したい場合は、他のツールに接続できるようにする必要があります。Gemini がマルチモダリティとツールの使用を組み合わせる必要があるシンプルなアイデアを試してみましょう。絵を描いて音楽を検索するというものです。
ステップ 1. この絵を見て、そこに描かれているすべての内容を説明し、良いサウンド トラックのジャンル、ムード、またはサウンド トラックに関する楽しく具体的なアイデアを考えてください。
ステップ 2. 「[クエリを挿入] を検索」という形式で検索クエリを入力してください。
Gemini:
ギター、ドラム、アンプが描かれています。ヤシの木もあります。楽しく、明るく、トロピカルなムード。ジャンルはレゲエ。南国を舞台にした映画やテレビ番組のサウンド トラックとして使用できそうです。
「南国でのバカンスにピッタリなレゲエ音楽」を検索
すばらしい!Gemini は、見たものについて推論し、解析して検索できる検索クエリを生成します。Gemini はユーザーにとって翻訳者のような役割を果たしているようなものですが、この場合、言語間で翻訳するのではなく、絵から音楽へと翻訳しています。マルチモーダル プロンプトを使えば、Gemini を使用して、さまざまな入力と出力の間でまったく新しい独自の翻訳を作成できます。
Gemini を使用してマルチモーダル ゲームのプロトタイプをすばやく作成してみるとどうなるでしょう?ゲームのアイデアとして、地図を指して推測する地名当てゲームを作ります。まず、Gemini に核となるアイデアを入力することから始めましょう。
説明: ゲームをしましょう。ある国を思い浮かべて、ヒントをください。ヒントは、該当する国が 1 つしかないくらい具体的なものでなければなりません。私は地図でその国を指差してみます。
次に、Gemini にゲームプレイの例を示し、不正解と正解の両方をどのように処理させたいかを示しましょう。
国: この国は、ほとんどが氷に覆われた巨大な島です。
(答え: グリーンランド)
推測:
カナダを指している *不正解*
推測:
グリーンランドを指している *正解*
試しに、Gemini にヒントを生成するよう促してみましょう。
ヒント:
この国は、カンガルーやコアラなどのユニークな野生動物で知られています。(答え: オーストラリア)
なるほど、良いヒントですね。指差しが機能するかどうかをテストしてみましょう。まず、わざと間違った場所を指してみます。
推測:
ブラジルを指している *不正解*
すばらしい!Gemini は画像を見て、私がブラジルを指していることを理解し、間違っていると正しく推論しました。次に、地図上の正しい場所を指してみましょう。
オーストラリアを指している *正解*
いいですね!おおむね例を示しただけで Gemini にゲームのロジックを教えたことになりました。また、例中の手のイラストから法則を導き出せるようになっていることもわかります。
もちろん、ゲームのアイデアを実現するには、最終的に実行ファイルのコードを書く必要があります。Gemini がゲーム用のシンプルなカウントダウン タイマーを作れるかどうかを見てみましょう。ただし、ちょっと楽しいひねりが加えられています。
HTML / CSS / JavaScript で簡単なタイマーを実装します。サンセリフ フォントとダークモードを使用します。10 秒の時点からカウントダウンを開始し、ゼロになったら、タイマーを興奮ややる気を連想させるランダムな絵文字に置き換えます!その後、タイマーを 10 秒の時点にまで戻し、再びカウントダウンを開始します。
この 1 つの指示だけで、Gemini は私たちが要求したことを実行する作業タイマーを提供してくれます。
私のお気に入りは、Gemini のソースコードをスクロールして、やる気が起こるように私のために選んでくれた数々の絵文字を見つけるところです。
const emojis = ['🚀', '⚡️', '🎉', '🎊', '🥳', '🤩', '✨']
;
この投稿を通して、私たちは Gemini に入力を与え、次に何が起こるかを予測させてきました。それが基本的にプロンプトと言われるものです。そして、私たちの入力は画像とテキストを組み合わせたマルチモーダルなものでした。
しかし、これまで Gemini がテキストで応答するところしかお見せしていません。Gemini は画像とテキストの組み合わせでも応答できるのでは?と思われているかもしれませんね。実はできるのです!これは、「テキストと画像のインターリーブ生成」と呼ばれる Gemini の機能です。この機能は、Gemini の最初のバージョンではまだ試せるようになっていませんが、近いうちに展開できるようにしたいと思っています。ここでは、何が可能なのかを少しだけご紹介します。
Gemini を使用して、日常のクリエイティブなインスピレーションを提供できるかどうかを見ていきましょう。そして、多少マルチモーダルな推論を必要とする分野...編み物で試してみましょう!🧶 上記の地図ゲームと同様に、やり取りの例を 1 つ挙げてみます。
この 2 色を使って作れるかぎ針編み作品のアイデアを 3 つ教えてください。
色: 青と黄色の糸が見えます。
アイデア 1: 片耳が黄色いかわいい犬はどうですか?
画像 1:
アイデア 2: それとも、いくつかの黄色い触手を持つクラゲはいかがですか?
画像 2:
アイデア 3: または、鼻が黄色い青い猫はどうですか?
画像 3:
私たちは基本的に、次のように各やり取りを進める方法を Gemini に教えています。「私は 2 つの毛糸玉の写真を撮ります。あなた(Gemini)には私が作ることができるもののアイデアを考え出し、その画像を生成することを期待しています。」
では次に、まだ見たことのない新しい色のペアの糸を見せて、その状況に対応できるかどうかを確認してみましょう。
この 2 色を使って作れるかぎ針編み作品のアイデアを 3 つ教えてください。
Gemini:
色: 青とピンクの糸が見えます。
アイデア 1: 青い耳の豚はどうですか?
画像 1:
アイデア 2: それとも、ピンクと青の触手を持つタコはいかがですか?
画像 2:
アイデア 3: または、ピンクの鼻のウサギはどうですか?
画像 3:
いいですね!Gemini は、新しい色について正しく推論し(「青とピンクの糸が見えます」)、これらのアイデアと画像を、テキストと画像を織り交ぜた 1 つの出力として生成しました。
Gemini がここで行ったことは、今日の画像生成モデルとは根本的に異なります。単に命令を別の画像生成モデルに渡すだけではありません。私の木のテーブルの上に置かれた実際の毛糸の画像を見て、私のテキストと画像を一緒にマルチモーダル推論しているのです。
この投稿を、Gemini で何が可能なのかを知るためのスターター ガイドとして役立てていただければ幸いです。プロンプトを通じて自身のアイデアを探求できるよう、まもなく多くの人々にこの機能を展開できることを楽しみにしています。どうぞご期待ください!