使用 Gemini 2.5 进行对话式图像分割

2025年7月21日
Paul Voigtlaender Research Scientist
Valentin Gabeur Research Scientist
Rohan Doshi Product Manager

AI 对图像的视觉理解能力已经取得了巨大的进步。最初,AI 只能通过边界框告诉我们某个物体“在哪里”。随后,分割模型问世,能够精确地勾勒出物体的形状。而最近,开放词汇模型出现,使我们能够使用诸如“蓝色滑雪靴”或“木琴”这样不太常见的标签来分割物体,而无需依赖预定义的类别列表。

之前的模型只是将像素与名词进行匹配。然而,真正的挑战——对话式图像分割(在学术文献中也被称为指代表达分割)——需要更深层次的理解:解析复杂的描述性短语。如果 AI 不只是能识别“一辆汽车”,还能识别“最远的那辆汽车”呢?

如今,Gemini 凭借其先进的视觉理解能力,将对话式图像分割提升至全新境界。Gemini 现在能够“理解”您希望它“看到”的内容。


利用对话式图像分割的查询能力

此功能的神奇之处在于您可以提出的问题类型。不再局限于简单的单个词标签,您将解锁一种更直观、更强大的方式来与视觉数据进行交互。请查看以下 5 类查询示例。


1. 物体间的关系

Gemini 现在可以根据物体之间的复杂关系,识别出特定的对象。

1:关系理解:如“撑伞的那个人”

2:顺序识别:如“从左边数第三本书”

3:对比属性:如“花束中最蔫的那朵花”

2. 条件逻辑

有时您需要使用条件逻辑进行查询。例如,您可以用“素食食物”这样的条件进行筛选。Gemini 也能处理带有否定条件的查询,例如“没有坐着的人”

Within an office meeting, the natural language query "the people who are not sitting" is used to overlay segmentation masks on the two individuals who are standing.

3. 抽象概念

这正是 Gemini 的世界知识大放异彩之处。您可以让它识别那些没有明确、固定视觉定义的事物,例如“损伤”、“杂乱”或“机会”等抽象概念。

On a kitchen counter, a natural language segmentation overlay highlights a spill in response to the abstract query, "area that should be cleaned up".

4. 图片内文字

当仅凭外观不足以准确区分一个物体的类别时,用户可能会通过图像中出现的文字标签来指代该物体。这要求模型具备 OCR 能力,而这正是 Gemini 2.5 的一大优势。

In a bakery setting, the model uses natural language segmentation to overlay masks on "the pistachio baklava" , distinguishing it from other nearby pastries based on in-image text.

5. 多语言标签

Gemini 不局限于单一语言,能够识别和处理多种不同语言的标签。

A plate of food has natural language segmentation overlays identifying various components, with the model providing corresponding labels in French as requested by the prompt "tous les objects en français".

对话式图像分割的实际应用

让我们来看看这些查询类型如何赋能全新的使用场景。


1. 释放创造力:交互式媒体编辑

这项能力正在重塑创意工作流。设计师不再依赖复杂的选区工具,而是可以通过自然语言直接向软件下达指令。这使得创作过程更加流畅而直观,例如只需要求软件选择“建筑物投下的阴影”即可。

An aerial view of a park demonstrates a natural language segmentation overlay identifying "the shadow of the building".

2. 构建更安全的世界:智能安全与合规监测

在职场安全领域,我们需要识别的不仅是物体,更是具体的情境。例如,通过输入指令“标出工厂车间中未佩戴安全帽的员工”,Gemini 能够将整个条件性描述理解为一个完整的查询,最终生成一张仅包含违规人员的精准分割图。

At a construction site, a natural language segmentation overlay is applied to identify "the people not wearing a hard hat".

3. 理赔的未来:细致的保险损害评估

“损害”是一个具有多种视觉表现形式的抽象概念。保险理赔员现在可以使用如“标出遭受天气损害的房屋”这样的提示,然后 Gemini 将利用其世界知识来识别与该类损害相关的特定凹痕和纹理,从而将其与简单的反光或锈蚀区分开来。

In an aerial photo of a subdivision, natural language segmentation is used to overlay masks on each "damaged house".

对开发者的重要意义

1:灵活的语言表达:不再受限于僵化、预定义的类。通过自然语言的方式,您能够灵活构建专属于您所在行业和用户的“长尾”视觉查询场景的解决方案。

2:简化的开发体验:只需一个 API,几分钟内即可上手。无需再去寻找、训练和托管单独的专用分割模型。这种易用性大大降低了构建复杂视觉应用的技术门槛。


立即开始构建

我们相信,将语言与视觉建立直接的像素级连接,将释放新一代智能应用的潜力。我们非常期待看到您创造的精彩作品。

通过以下互动方式,立即在 Google AI Studio 中开始体验:

空间理解演示

如果您更习惯使用 Python 环境,也可以尝试我们提供的交互式空间理解 Colab 笔记

如需通过 Gemini API 开始构建应用,请参考我们的开发者指南阅读更多关于图像分割的入门内容。您也可以加入我们的开发者论坛,与其他开发者交流经验、探讨案例,并获得 Gemini API 团队的支持。

为获得最佳效果,我们建议遵循以下最佳实践:

1:使用 gemini-2.5-flash 模型

2:关闭 thinking set(设置 thinkingBudget=0

3:尽量贴近建议的提示格式,并要求以 JSON 格式作为输出。

Give the segmentation masks for the objects. 
Output a JSON list of segmentation masks where each entry contains the 2D bounding box in the key "box_2d", the segmentation mask in key "mask", and the text label in the key "label". 
Use descriptive labels.
Plain text

致谢

我们感谢 Weicheng Kuo、 Rich Munoz 和 Huizhong Chen 在 Gemini 分割能力上的贡献, 感谢 Junyan Xu 在基础设施方面的努力, 感谢 Guillaume Vernade 在文档和代码示例上的工作,也感谢整个 Gemini 图像理解团队的付出,最终促成了本次发布。最后,我们要感谢图像理解负责人 Xi Chen 和 Fei Xia,以及多模态理解方向负责人 Jean-Baptiste Alayrac。