使用 Gemini Robotics-ER 1.5 构建新一代物理智能体

2025年9月25日
Kendra Byrne Group Product Manager
Fei Xia Staff Research Scientist

即日起,我们向所有开发者开放先进的机器人具身推理模型 Gemini Robotics-ER 1.5。这是首个广泛开放的 Gemini Robotics 模型,可作为高级推理模型用于机器人。

该模型旨在实现对机器人而言至关重要的功能,包括视觉与空间理解、任务规划以及进度评估。它还可以原生方式调用工具,如调用 Google 搜索以查找信息,以及调用视觉-语言-动作模型 (VLA) 或其他任何第三方用户定义的函数来执行任务。

您可以立即通过 Google AI Studio 和 Gemini API,使用 Gemini Robotics-ER 1.5 预览版开始构建。

该模型专为帮助机器人完成高难度任务而设计。想象一下您让机器人完成以下任务的场景:“能把这些物品分别放入相应的厨余、可回收和不可回收垃圾桶吗?”为完成此任务,机器人需要上网查询当地的回收指南,识别面前的物品,并根据当地规则确定如何分类,然后完成放置物品的所有步骤。像这样的日常任务往往需要上下文信息并分多步完成。

Gemini Robotics-ER 1.5 是首个针对这类具身推理优化的思考模型。在学术和内部基准测试中均表现出了先进性能,其设计灵感来源于我们受信任的测试人员计划中的真实应用场景。

GeminiRoboticsER1.5_Graph-ER+Gen-RD3_V001
Gemini Robotics-ER 1.5 模型是我们最先进的具身推理模型,同时保留了通用多模态基础模型的强大性能。(性能根据一组具身/通用推理基准的综合结果衡量,更多详情请参阅技术报告)

Gemini Robotics-ER 1.5 新功能

Gemini Robotics-ER 1.5 专门针对机器人应用进行了调优,并引入了多项新功能:

  • 快速且强大的空间推理能力:提供先进的空间理解能力,同时保持 Gemini Flash 模型的低延迟。该模型擅长生成语义精确的 2D 坐标点,基于对物品大小、重量和功能的推理,使机器人能够执行如“指向任何可拿起的物品”等命令,实现精准、响应快速的交互。

  • 协调高级智能体行为:利用先进的空间与时间推理、规划和成功检测,实现可靠的长周期任务执行(例如,“根据这张图片重新整理我的桌子”)。它还可以原生方式调用工具,如 Google 搜索工具或任何第三方用户定义的函数(例如“根据当地规则将垃圾分类放入正确的垃圾桶”)。

  • 灵活的思考预算:您现在可以直接在延迟与准确性之间做出取舍。这意味着在处理复杂任务(如多步骤组装规划)时,可以让模型“思考久一点”,而在需要快速响应的任务(如检测或指向物体)中,则可以要求快速响应。

  • 改进的安全过滤能力:构建更安心。该模型提升了语义安全性,能够更好地识别并拒绝生成违反物理约束的计划(例如,超出机器人承载能力的操作)。


机器人的智能体大脑

您可以将 Gemini Robotics-ER 1.5 视为机器人的高级“大脑”。它能够理解复杂的自然语言指令、在长周期任务中持续推理,并协调复杂行为。这意味着它不仅感知力出色,可以理解场景中的对象,还能采取具体操作。

例如,Gemini Robotics-ER 1.5 能够拆解“清理桌子”等复杂请求,它会生成执行计划,并调用相应工具完成任务,例如机器人的硬件 API、专门的抓取模型,以及用于运动控制的视觉-语言-动作模型 (VLA)。


高级空间理解能力

为了让机器人能够与周围的物理世界进行交互,它们需要能够感知并理解自身所在的环境。Gemini Robotics-ER 1.5 针对生成高质量空间结果进行了精细调优,使模型能够为物体生成精确的 2D 坐标点。我们来看几个使用 Gemini GenAI SDK for Python 的示例,帮助您了解如何开始在自己的应用中使用该模型。

GeminiRoboticsER1.5_Graph-PointingBenchmark-RD3_V001 (1)
就指向准确性而言,Gemini Robotics-ER 1.5 是最精确的视觉语言模型。

2D 坐标点生成

在给出厨房场景图片的情况下,Gemini Robotics-ER 1.5 可以提供每个物体(或物体某个部分)的位置信息。随后,这些信息可与机器人的 3D 传感器数据结合,确定物体在空间中的确切位置,让您的规划库生成准确的运动规划。

image9

提示:

Point to the following items in the image: dish soap, dish rack, faucet, rice cooker, unicorn. The points are in [y, x] format normalized to 0-1000. Only include objects that are actually present in the image."
Plain text

注意我们是如何要求模型仅包含出现在图片中的所请求物品的,这样可以防止“幻觉”现象,例如包含所请求的独角兽(不存在)的坐标点,并确保模型的判断基于它所能看到的现实场景。这种技术同样可以扩展到视频流中物体状态的输出:仅突出显示处于特定状态的物体,例如当在画面中可见时,容器的开合状态。以下视频展示了模型在接收到指向“绿色记号笔、棕色托盘、绿色笔记本、笔记本电脑(打开)、笔记本电脑(关闭)、眼镜盒(打开)、眼镜盒(关闭)”提示时的表现,这一查询结合使用了空间理解与状态估计能力。

时间推理

虽然找出物体很重要,但真正的时空推理需要理解物体与动作随时间变化的关系。Gemini Robotics-ER 1.5 在这方面表现出色,它可以通过处理视频来理解物理世界中的因果关系。例如,在下方视频中,一对机械臂将绿色记号笔放入木制托盘,然后将蓝色和红色圆珠笔放入圆柱形容器。当我们让模型回顾这一系列动作,并告诉我们各任务的执行顺序,以及两个时间点之间发生的任务时,模型能够给出正确答案。这表明它不仅能理解场景中的物体,还能推理场景中发生的事情。

提示:

Describe in detail each step of finishing the task. Breaking it down by timestamp, output in json format with keys "start_timestamp", "end_timestamp" and "description".
Plain text

响应:

[
  {
    "start_timestamp": "00:02",
    "end_timestamp": "00:13",
    "description": "The left robotic arm picks up the green marker from the table and places it into the wooden tray."
  },
  {
    "start_timestamp": "00:15",
    "end_timestamp": "00:22",
    "description": "The left robotic arm picks up the blue pen from the table and places it into the black mesh pen cup."
  },
  {
    "start_timestamp": "00:23",
    "end_timestamp": "00:28",
    "description": "The right robotic arm picks up the red pen from the table and places it into the black mesh pen cup, completing the task of organizing the writing utensils."
  }
]
Plain text

>放大视频第 15 秒到 22 秒的部分,并以相同格式逐秒说明发生的情况

[
  {
    "start_timestamp": "00:15",
    "end_timestamp": "00:16",
    "description": "The left robotic arm begins moving towards the blue pen located on the table to the left of the pen cup."
  },
  ... (removed for brevity, please take a look at the video below)
    {
    "start_timestamp": "00:21",
    "end_timestamp": "00:22",
    "description": "The arm lowers the pen into the cup and releases it, placing it upright inside the container."
  }
]
Plain text

输出在时间上是准确的,将其叠加在原始视频上可以看到模型精准理解了机器人的动作。

基于对功能的推理协调长周期任务

启用思考模式后,模型可以对复杂的指向和边界框查询进行推理。下面以制作咖啡为例,逐步展示如何使用模型。该示例体现了模型对“如何做”和“在哪里做”的理解,从而帮助人类或机器人完成任务。

image15

提示:

Identify where I should put my mug to make a cup of coffee. Return a list of JSON objects in the format: `[{"box_2d": [y_min, x_min, y_max, x_min], "label": <label>}]`, where the coordinates are normalized between 0-1000.
Plain text

响应:

image10
Where should I put the coffee pod?
Plain text

响应:

image15
Now, I need to close the coffee maker. Plot a trajectory of 8 points that indicates how the handle of the lid should move to close it. Start from the handle. Points are [Y,X] in normalized coordinates [0 - 1000]. Please output all points, including the trajectory points in the format. [{"point": [Y, X], "label": },  {"point": [Y, X], "label": }, ...].
Plain text

响应:

image1
I finished my coffee. Where should I put my mug now to clean up? Return a list of JSON objects in the format: [{"point": [y, x], "label": <label>}], where the coordinates are normalized between 0-1000.
Plain text
image12

这里是另一个结合规划与空间依据生成“空间接地”计划的示例。可以通过以下简单的提示来触发:“说明如何将垃圾分类放入各个垃圾桶。指向您提到的每个物体。每个坐标点应采用以下格式:[{"point": [y, x], "label": }],坐标归一化到 0-1000 之间。”响应会交错显示文本和坐标点,并可将其以这种动画效果呈现出来。

灵活的思考预算

此图表通过一系列示例,展示了在使用 Gemini Robotics-ER 1.5 模型时,调整思考预算对延迟和性能的影响。随着思考令牌预算的增加,模型性能会提升。对于简单的空间理解任务(如物体检测),即使思考预算很短,性能也很高;而更复杂的推理任务则需要更大的思考预算,才能发挥更好的性能。这使开发者在面对难度更大的任务时,能够平衡低延迟响应与高精度结果之间的需求。

GeminiRoboticsER1.5_Graph-TTB-RD2_V001 (2)
Gemini Robotics-ER 1.5 通过推理阶段的计算资源扩展来提升性能。思考令牌预算是可调的,这使开发者能够在对延迟敏感的任务与需要高精度的复杂推理任务之间找到平衡。

虽然 Gemini Robotics-ER 1.5 模型默认启用思考功能,但您可以通过在请求中包含 thinking_config 选项来设置思考预算,甚至停用思考功能。您可以点击此处,详细了解 Gemini 思考预算。


安全性说明

我们致力于为您的机器人应用构建负责任的基础。Gemini Robotics-ER 1.5 对安全性做出了重大改进,增强了以下两个方面的过滤能力:

  • 语义安全:该模型可以理解危险或有害任务,并拒绝为其生成计划,其能力已根据 ASIMOV Benchmark 等基准进行了严格评估。

  • 物理约束感知:模型在识别请求是否会违反您定义的物理约束(如机器人的负载能力或工作空间限制)方面有了显著提升。


但是,这些模型级别的安全保障不能替代物理系统所需的严格安全工程设计。我们倡导采用“瑞士奶酪”式安全策略,通过多层防护共同保障安全。开发者负责实施标准的机器人安全最佳实践,包括紧急停止、碰撞规避以及全面的风险评估。


立即开始构建

即日起,Gemini Robotics-ER 1.5 已提供预览版,为您提供构建机器人推理引擎所需的感知与规划功能。


深入研究

该模型是我们更广泛的 Gemini Robotics 系统的基础推理组件。如需了解我们机器人未来愿景背后的科学原理,包括端到端动作模型 (VLA) 与跨实体学习,请参阅研究博客和完整的技术报告