Gemini Robotics - ER 1.5 で次世代の物理エージェントを開発

本日、最先端のロボット身体性推論モデル Gemini Robotics-ER 1.5 をすべてのデベロッパーに提供開始します。Gemini Robotics モデル初の一般公開で、ロボットの高度な推論モデルとして機能します。

今回のモデルは視覚・空間理解、タスク計画、進捗推定など、ロボット工学に欠かせない機能に特化しています。さらに Google Search などのツールをネイティブで呼び出して情報を検索できるほか、視覚・言語モデル（VLA）やその他サードパーティのユーザー定義関数を呼び出してタスクを実行することが可能です。

Google AI Studio と Gemini API で、プレビュー版の Gemini Robotics - ER 1.5 を使った開発を今すぐ開始いただけます。

このモデルは、ロボットでの難題として知られるタスク向けに設計されています。たとえば、ロボットに「ここにある物体をコンポスト、リサイクル、ゴミ箱に正しく分別して」と指示したとしましょう。ロボットがこのタスクを完了するには、まずインターネットで現地のリサイクル規則を調べ、目の前にある物体を認識し、現地のルールに基づいて分別する方法を理解して、それぞれを分別する一連の動作を完了する必要があります。このような日常タスクの大半はコンテキスト情報と複数のステップで完了します。

こうした身体性推論に初めて最適化されたモデルが Gemini Robotics-ER 1.5 です。Trusted Tester プログラムの実際のユースケースに触発され、学術研究と社内のベンチマーク両方で最高水準のパフォーマンスを達成しています。

GeminiRoboticsER1.5_Graph-ER+Gen-RD3_V001

Gemini Robotics-ER 1.5 モデルは身体性推論の最先端モデルでありながら、汎用のマルチモーダル基盤モデルとしても優れたパフォーマンスを保っています（パフォーマンスは一連の身体性 / 汎用推論ベンチマークの集合として測定されます。具体的な詳細については、技術レポートをお読みください）。

Gemini Robotics - ER 1.5 の新機能

Gemini Robotics - ER 1.5 は、ロボットアプリケーションの用途に合わせて調整されており、次のような新しい機能が導入されています。

高速・高性能の空間推論: Gemini Flash モデルの低レイテンシで最先端の空間理解を実現します。このモデルはセマンティック情報による高精度の 2D ポイントを生成するのに優れており、物のサイズ、重量、アフォーダンスについての推論に基づき「ピックアップできるものを指して」などのコマンドを実行して、正確で応答性の高い操作を実現できます。

高度なエージェント行動の調整: 高度な空間・時間的推論、計画、成功検出を活用して、信頼性の高い、長時間タスクの実行ループを実現します（「この画像に沿って机を整理する」など）。また、Google Search ツールやサードパーティのユーザー定義関数などをネイティブに呼び出すこともできます（「地域のルールに合わせててゴミを正しいゴミ箱に分別する」など）。

柔軟な思考予算: レイテンシと精度のトレードオフを直接制御できるようになりました。つまり、マルチステップでの組立計画など、複雑なタスクをモデルに「長く考えさせる」ことが可能になり、物体の検出やポインティングなどの事後対応型のタスクでは迅速な対応を要求することができます。

安全フィルタの改良: さらに自信を持って開発が進められます。このモデルでは意味論的安全性が向上しており、物理的制約（ロボットのペイロード容量を超えるなど）に違反する計画を認識し、その生成を拒否することに優れています。

ロボットのためのエージェント型ブレーン

Gemini Robotics-ER 1.5 はロボットの高水準なブレーンとみなすことができます。自然言語の複雑なコマンドを理解し、長期的なタスクを推論して、高度な動作をオーケストレーションします。つまり、単なる認識にとどまらず、シーンに何があるのか、それについて何をすべきかを理解します。

Gemini Robotics-ER 1.5 は「テーブルをきれいにして」といった複雑な要求を計画に落とし込んで、ロボットのハードウェア API、物体をつかむ特殊モデル、モーター制御のための視覚・言語・行動（VLA）モデルなど、そのジョブに適したツールを呼び出します。

高度な空間理解

ロボットが周囲の物理世界を操作できるようにするには、存在する場所の環境を認識、理解できる必要があります。Gemini Robotics - ER 1.5 は、高品質の空間結果を生成するよう微調整されており、モデルは物体の正確な 2D ポイントを生成できます。Gemini GenAI SDK for Python を使用して、独自のアプリケーションでこのモデルを使い始めるのに役立つ例をいくつかご紹介します。

GeminiRoboticsER1.5_Graph-PointingBenchmark-RD3_V001 (1)

Gemini Robotics-ER 1.5 はポイントの精度で最も正確な視覚言語モデル。

2D ポイント生成

キッチンシーンの画像を与えると、Gemini Robotics-ER 1.5 はすべての物体（または物体の一部）の位置を提供します。この情報をロボットの 3D センサーと組み合わせて空間での物体の正確な位置を特定し、計画ライブラリで正確な動作経過を生成できるようにします。

プロンプト:

Point to the following items in the image: dish soap, dish rack, faucet, rice cooker, unicorn. The points are in [y, x] format normalized to 0-1000. Only include objects that are actually present in the image."

Plain text

要求されたアイテムで、画像に表示されているものだけを含めるようモデルに指示した点に注目してください。これにより、要求されたものの存在しないユニコーンに対してのポイントを含めるようなハルシネーションを防ぎ、モデルで表示可能な現実が常に基準となります。この手法は動画ストリームの物体の状態出力にも当てはめることができます。フレーム内で表示され、開いている、あるいは閉じているなど、特定の状態にある物体のみを強調表示します。以下は、空間理解と状態推定を組み合わせたクエリで「緑色のマーカー、茶色のトレイ、緑色のノートブック、ノートパソコン（開いた状態）、ノートパソコン（閉じた状態）、メガネケース（開いた状態）、メガネケース（閉じた状態）」を示すようモデルに指示した動画です。

時間的推論

オブジェクトを見つけることは不可欠ですが、真の時空推論には、オブジェクトとアクションが時間経過とともに展開するときの関係を理解することが含まれます。Gemini Robotics - ER 1.5 はこの点が優れており、物理世界での原因と影響を理解するために動画を処理します。たとえば、次の動画では、一対のロボットアームが緑色のマーカーを木製のトレイに移動させ、次に青色と赤色のペンを円筒形の容器に移動させます。シーケンスを確認し、どのタスクがどのような順序で実行されたか、2 つのタイムスタンプの間にどのタスクが発生したかをモデルに指示すると、正しい回答が得られます。これは、シーン内にある物体を認識するだけでなく、シーン内での発生事象を推論する能力を示しています。

プロンプト:

Describe in detail each step of finishing the task. Breaking it down by timestamp, output in json format with keys "start_timestamp", "end_timestamp" and "description".

Plain text

応答:

[
  {
    "start_timestamp": "00:02",
    "end_timestamp": "00:13",
    "description": "The left robotic arm picks up the green marker from the table and places it into the wooden tray."
  },
  {
    "start_timestamp": "00:15",
    "end_timestamp": "00:22",
    "description": "The left robotic arm picks up the blue pen from the table and places it into the black mesh pen cup."
  },
  {
    "start_timestamp": "00:23",
    "end_timestamp": "00:28",
    "description": "The right robotic arm picks up the red pen from the table and places it into the black mesh pen cup, completing the task of organizing the writing utensils."
  }
]

Plain text

>zoom into second 15 to 22 and provide a per-second breakdown of what is happening in the same format（15～22 秒をクローズアップし、何が起こっているかを秒単位で同じ形式で説明して）

[
  {
    "start_timestamp": "00:15",
    "end_timestamp": "00:16",
    "description": "The left robotic arm begins moving towards the blue pen located on the table to the left of the pen cup."
  },
  ... (removed for brevity, please take a look at the video below)
    {
    "start_timestamp": "00:21",
    "end_timestamp": "00:22",
    "description": "The arm lowers the pen into the cup and releases it, placing it upright inside the container."
  }
]

Plain text

出力は時間的に正確であり、元の動画にオーバーレイするとモデルがロボットの動きを正確に理解していることがわかります。

長期的なタスクを調整するためのアフォーダンスについての推論

思考が有効になっている場合、モデルは複雑なポインティングと境界ボックスのクエリについて推論できます。ここでは、コーヒー作りの例で使用するステップバイステップのデモンストレーションをご紹介します。人間やロボットがタスクを完了するために必要な「方法」と「場所」を理解していることを示しています。

プロンプト:

Identify where I should put my mug to make a cup of coffee. Return a list of JSON objects in the format: `[{"box_2d": [y_min, x_min, y_max, x_min], "label": <label>}]`, where the coordinates are normalized between 0-1000.

Plain text

応答:

Where should I put the coffee pod?

Plain text

応答:

Now, I need to close the coffee maker. Plot a trajectory of 8 points that indicates how the handle of the lid should move to close it. Start from the handle. Points are [Y,X] in normalized coordinates [0 - 1000]. Please output all points, including the trajectory points in the format. [{"point": [Y, X], "label": },  {"point": [Y, X], "label": }, ...].

Plain text

応答:

I finished my coffee. Where should I put my mug now to clean up? Return a list of JSON objects in the format: [{"point": [y, x], "label": <label>}], where the coordinates are normalized between 0-1000.

Plain text

ここでは、「空間的に接地された」計画を生成するために、計画と空間的接地を組み合わせた別の例を示します。簡単なプロンプト「ゴミ箱にゴミを分別する方法を説明してください。参照する各オブジェクトをポイントします。各ポイントは [{"point": [y, x], "label": }]、座標は 0～1000 に正規化された形式にしてください」を使って導きます。回答にはインターリーブされたテキストとポイントが含まれており、レンダリングすることでこのアニメーションを作成できます。

柔軟な思考予算

このグラフは、Gemini Robotics - ER 1.5 モデル使用時における思考予算の一連の変化の例と、レイテンシとパフォーマンスに対する影響を示しています。モデルのパフォーマンスは、思考トークンの予算が増加するにつれて向上します。物体検出のような単純な空間理解タスクでは非常に少ない思考予算でもパフォーマンスが高いのに対し、さらに複雑な推論は予算が大きい方がメリットがあります。これにより、デベロッパーは低レイテンシの応答の必要性と、より困難なタスクでの高精度な結果のバランスを取ることができます。

GeminiRoboticsER1.5_Graph-TTB-RD2_V001 (2)

Gemini Robotics-ER 1.5 は推論時間の計算スケーリングを使用してパフォーマンスを向上させます。思考トークン予算は調整が可能なため、デベロッパーは低レイテンシのタスクとより困難な推論タスクの兼ね合いが取れるようになります。

Gemini Robotics-ER 1.5 では思考がデフォルトで有効になっており、リクエストに thinking_config オプションを追加することで思考予算を設定したり、思考を無効にしたりもできます。Gemini の思考予算の詳細については、こちらをご覧ください。

安全性に関する注意点

Google はロボティクスアプリケーションのための責任ある基盤づくりに取り組んでいます。Gemini Robotics-ER 1.5 は安全性を大幅に改善しており、次の両方のフィルタを強化しました。

セマンティック安全性: モデルは危険あるいは有害なタスクの計画を理解し、生成を拒否するように設計されており、ASIMOV ベンチマークなどのベンチマークで機能が厳密に評価されます。

物理的制約の認識: ロボットのペイロード容量やワークスペースの制限など、定義した物理的制約をリクエストが違反した場合の認識が大幅に向上しました。

ただし、これらのモデルレベルでの安全保護策は、物理システムで要求される厳格な安全設計に代わるものではありません。Google は安全性に対して複数の保護層が連携して機能する「スイスチーズアプローチ」を提唱しています。デベロッパーは、緊急停止、衝突回避、および徹底的なリスク評価を含む、ロボット工学の安全標準ベストプラクティスを実装する責任があります。

今すぐ開発を始めるには

Gemini Robotics - ER 1.5 は本日よりプレビュー版で利用可能になりました。ロボットの推論エンジンを開発するために必要な知覚・計画機能を提供します。

Google AI Studio を起動して、モデルを実験してみましょう。

クイックスタートと API の完全なリファレンスについては、デベロッパー向けドキュメントを参照してください。

Colab ノートブックで実用的な実装例をご覧いただけます。

リサーチでさらに掘り下げる

このモデルは、さらに幅広い Gemini Robotics システムの基本的な推論コンポーネントです。エンドツーエンドのアクションモデル（VLA）やクロスエンボディメント学習など、ロボット工学の今後のビジョンを支える科学を理解するには、リサーチブログと技術レポート全文をお読みください。