即日起,我们向所有开发者开放先进的机器人具身推理模型 Gemini Robotics-ER 1.5。这是首个广泛开放的 Gemini Robotics 模型,可作为高级推理模型用于机器人。
该模型旨在实现对机器人而言至关重要的功能,包括视觉与空间理解、任务规划以及进度评估。它还可以原生方式调用工具,如调用 Google 搜索以查找信息,以及调用视觉-语言-动作模型 (VLA) 或其他任何第三方用户定义的函数来执行任务。
您可以立即通过 Google AI Studio 和 Gemini API,使用 Gemini Robotics-ER 1.5 预览版开始构建。
该模型专为帮助机器人完成高难度任务而设计。想象一下您让机器人完成以下任务的场景:“能把这些物品分别放入相应的厨余、可回收和不可回收垃圾桶吗?”为完成此任务,机器人需要上网查询当地的回收指南,识别面前的物品,并根据当地规则确定如何分类,然后完成放置物品的所有步骤。像这样的日常任务往往需要上下文信息并分多步完成。
Gemini Robotics-ER 1.5 是首个针对这类具身推理优化的思考模型。在学术和内部基准测试中均表现出了先进性能,其设计灵感来源于我们受信任的测试人员计划中的真实应用场景。
Gemini Robotics-ER 1.5 专门针对机器人应用进行了调优,并引入了多项新功能:
您可以将 Gemini Robotics-ER 1.5 视为机器人的高级“大脑”。它能够理解复杂的自然语言指令、在长周期任务中持续推理,并协调复杂行为。这意味着它不仅感知力出色,可以理解场景中的对象,还能采取具体操作。
例如,Gemini Robotics-ER 1.5 能够拆解“清理桌子”等复杂请求,它会生成执行计划,并调用相应工具完成任务,例如机器人的硬件 API、专门的抓取模型,以及用于运动控制的视觉-语言-动作模型 (VLA)。
为了让机器人能够与周围的物理世界进行交互,它们需要能够感知并理解自身所在的环境。Gemini Robotics-ER 1.5 针对生成高质量空间结果进行了精细调优,使模型能够为物体生成精确的 2D 坐标点。我们来看几个使用 Gemini GenAI SDK for Python 的示例,帮助您了解如何开始在自己的应用中使用该模型。
在给出厨房场景图片的情况下,Gemini Robotics-ER 1.5 可以提供每个物体(或物体某个部分)的位置信息。随后,这些信息可与机器人的 3D 传感器数据结合,确定物体在空间中的确切位置,让您的规划库生成准确的运动规划。
提示:
Point to the following items in the image: dish soap, dish rack, faucet, rice cooker, unicorn. The points are in [y, x] format normalized to 0-1000. Only include objects that are actually present in the image."
注意我们是如何要求模型仅包含出现在图片中的所请求物品的,这样可以防止“幻觉”现象,例如包含所请求的独角兽(不存在)的坐标点,并确保模型的判断基于它所能看到的现实场景。这种技术同样可以扩展到视频流中物体状态的输出:仅突出显示处于特定状态的物体,例如当在画面中可见时,容器的开合状态。以下视频展示了模型在接收到指向“绿色记号笔、棕色托盘、绿色笔记本、笔记本电脑(打开)、笔记本电脑(关闭)、眼镜盒(打开)、眼镜盒(关闭)”提示时的表现,这一查询结合使用了空间理解与状态估计能力。
虽然找出物体很重要,但真正的时空推理需要理解物体与动作随时间变化的关系。Gemini Robotics-ER 1.5 在这方面表现出色,它可以通过处理视频来理解物理世界中的因果关系。例如,在下方视频中,一对机械臂将绿色记号笔放入木制托盘,然后将蓝色和红色圆珠笔放入圆柱形容器。当我们让模型回顾这一系列动作,并告诉我们各任务的执行顺序,以及两个时间点之间发生的任务时,模型能够给出正确答案。这表明它不仅能理解场景中的物体,还能推理场景中发生的事情。
提示:
Describe in detail each step of finishing the task. Breaking it down by timestamp, output in json format with keys "start_timestamp", "end_timestamp" and "description".
响应:
[
{
"start_timestamp": "00:02",
"end_timestamp": "00:13",
"description": "The left robotic arm picks up the green marker from the table and places it into the wooden tray."
},
{
"start_timestamp": "00:15",
"end_timestamp": "00:22",
"description": "The left robotic arm picks up the blue pen from the table and places it into the black mesh pen cup."
},
{
"start_timestamp": "00:23",
"end_timestamp": "00:28",
"description": "The right robotic arm picks up the red pen from the table and places it into the black mesh pen cup, completing the task of organizing the writing utensils."
}
]
>放大视频第 15 秒到 22 秒的部分,并以相同格式逐秒说明发生的情况
[
{
"start_timestamp": "00:15",
"end_timestamp": "00:16",
"description": "The left robotic arm begins moving towards the blue pen located on the table to the left of the pen cup."
},
... (removed for brevity, please take a look at the video below)
{
"start_timestamp": "00:21",
"end_timestamp": "00:22",
"description": "The arm lowers the pen into the cup and releases it, placing it upright inside the container."
}
]
输出在时间上是准确的,将其叠加在原始视频上可以看到模型精准理解了机器人的动作。
启用思考模式后,模型可以对复杂的指向和边界框查询进行推理。下面以制作咖啡为例,逐步展示如何使用模型。该示例体现了模型对“如何做”和“在哪里做”的理解,从而帮助人类或机器人完成任务。
提示:
Identify where I should put my mug to make a cup of coffee. Return a list of JSON objects in the format: `[{"box_2d": [y_min, x_min, y_max, x_min], "label": <label>}]`, where the coordinates are normalized between 0-1000.
响应:
Where should I put the coffee pod?
响应:
Now, I need to close the coffee maker. Plot a trajectory of 8 points that indicates how the handle of the lid should move to close it. Start from the handle. Points are [Y,X] in normalized coordinates [0 - 1000]. Please output all points, including the trajectory points in the format. [{"point": [Y, X], "label": }, {"point": [Y, X], "label": }, ...].
响应:
I finished my coffee. Where should I put my mug now to clean up? Return a list of JSON objects in the format: [{"point": [y, x], "label": <label>}], where the coordinates are normalized between 0-1000.
这里是另一个结合规划与空间依据生成“空间接地”计划的示例。可以通过以下简单的提示来触发:“说明如何将垃圾分类放入各个垃圾桶。指向您提到的每个物体。每个坐标点应采用以下格式:[{"point": [y, x], "label": }],坐标归一化到 0-1000 之间。”响应会交错显示文本和坐标点,并可将其以这种动画效果呈现出来。
此图表通过一系列示例,展示了在使用 Gemini Robotics-ER 1.5 模型时,调整思考预算对延迟和性能的影响。随着思考令牌预算的增加,模型性能会提升。对于简单的空间理解任务(如物体检测),即使思考预算很短,性能也很高;而更复杂的推理任务则需要更大的思考预算,才能发挥更好的性能。这使开发者在面对难度更大的任务时,能够平衡低延迟响应与高精度结果之间的需求。
虽然 Gemini Robotics-ER 1.5 模型默认启用思考功能,但您可以通过在请求中包含 thinking_config 选项来设置思考预算,甚至停用思考功能。您可以点击此处,详细了解 Gemini 思考预算。
我们致力于为您的机器人应用构建负责任的基础。Gemini Robotics-ER 1.5 对安全性做出了重大改进,增强了以下两个方面的过滤能力:
但是,这些模型级别的安全保障不能替代物理系统所需的严格安全工程设计。我们倡导采用“瑞士奶酪”式安全策略,通过多层防护共同保障安全。开发者负责实施标准的机器人安全最佳实践,包括紧急停止、碰撞规避以及全面的风险评估。
即日起,Gemini Robotics-ER 1.5 已提供预览版,为您提供构建机器人推理引擎所需的感知与规划功能。
该模型是我们更广泛的 Gemini Robotics 系统的基础推理组件。如需了解我们机器人未来愿景背后的科学原理,包括端到端动作模型 (VLA) 与跨实体学习,请参阅研究博客和完整的技术报告。