Segmentação conversacional de imagens com o Gemini 2.5

21 DE JULHO DE 2025
Paul Voigtlaender Research Scientist
Valentin Gabeur Research Scientist
Rohan Doshi Product Manager

A forma como a IA entende visualmente as imagens evoluiu tremendamente. No início, a IA era capaz de nos dizer "onde" estava um objeto usando caixas delimitadoras. Depois, vieram os modelos de segmentação, que delineavam com precisão a forma de um objeto. Mais recentemente, surgiram os modelos de vocabulário aberto, que nos permitem segmentar objetos usando rótulos menos comuns, como "bota de esqui azul" ou "xilofone", sem a necessidade de uma lista predefinida de categorias.

Os modelos anteriores faziam a correspondência de pixels com substantivos. No entanto, o verdadeiro desafio, a segmentação conversacional de imagens (diretamente relacionada à segmentação com base em expressões de referência da literatura), requer uma compreensão mais profunda: a análise de frases descritivas complexas. Em vez de simplesmente identificar "um carro", e se pudéssemos identificar "o carro que está mais distante"?

Hoje, a avançada compreensão visual do Gemini traz um novo nível de segmentação conversacional de imagens. Agora, o Gemini "entende" o que você está pedindo para "ver".


Utilização de consultas de segmentação conversacional de imagens

A magia desse recurso está nos tipos de perguntas que você pode fazer. Ao ir além de simples rótulos com uma única palavra, você pode desbloquear uma forma mais intuitiva e poderosa de interagir com dados visuais. Considere as cinco categorias de consultas abaixo.


1. Relações entre objetos

Agora, o Gemini é capaz de identificar objetos com base em suas relações complexas com os objetos a seu redor.

1: Compreensão relacional: "a pessoa que está segurando o guarda-chuva".

2: Ordenação: "o terceiro livro a partir da esquerda".

3: Atributos comparativos: "a flor mais murcha do buquê".

2. Lógica condicional

Às vezes, é preciso consultar usando a lógica condicional. Por exemplo, você pode fazer uma filtragem com consultas como "alimentos que sejam vegetarianos". O Gemini também pode lidar com consultas com negações, como "as pessoas que não estão sentadas".

Within an office meeting, the natural language query "the people who are not sitting" is used to overlay segmentation masks on the two individuals who are standing.

3. Conceitos abstratos

É aqui que o conhecimento de mundo do Gemini se destaca. Você pode pedir a ele para segmentar coisas que não tenham uma definição visual simples e fixa. Isso inclui conceitos como "dano", "bagunça" ou "oportunidade".

On a kitchen counter, a natural language segmentation overlay highlights a spill in response to the abstract query, "area that should be cleaned up".

4. Texto na imagem

Quando a aparência por si só não é suficiente para distinguir a categoria precisa de um objeto, o usuário pode se referir a ele usando um rótulo de texto escrito presente na imagem. Isso requer habilidades de OCR para o modelo, um dos pontos fortes do Gemini 2.5.

In a bakery setting, the model uses natural language segmentation to overlay masks on "the pistachio baklava" , distinguishing it from other nearby pastries based on in-image text.

5. Rótulos multilíngues

O Gemini não se restringe a um único idioma e é capaz de lidar com rótulos em muitos idiomas diferentes.

A plate of food has natural language segmentation overlays identifying various components, with the model providing corresponding labels in French as requested by the prompt "tous les objects en français".

A segmentação conversacional de imagens em ação

Vamos explorar como esses tipos de consultas podem ativar novos casos de uso.


1. Dê asas à criatividade: edição interativa de mídia

Esse recurso transforma os fluxos de trabalho criativos. Em vez de usar ferramentas de seleção complexas, agora, o designer pode orientar o software usando palavras. Isso permite um processo mais fluido e intuitivo, como pedir para selecionar "a sombra projetada pelo edifício".

An aerial view of a park demonstrates a natural language segmentation overlay identifying "the shadow of the building".

2. Construa um mundo mais seguro: monitoramento inteligente de segurança e conformidade

Para a segurança no local de trabalho, você precisa identificar situações, e não apenas objetos. Com um prompt como "Destaque qualquer funcionário no chão de fábrica que não esteja usando um capacete", o Gemini compreende toda a instrução condicional como uma única consulta, produzindo uma máscara final precisa apenas dos indivíduos fora de conformidade.

At a construction site, a natural language segmentation overlay is applied to identify "the people not wearing a hard hat".

3. O futuro dos sinistros: avaliação de danos para seguro com nuances

"Dano" é um conceito abstrato e com muitas formas visuais. Agora, um avaliador de seguros pode usar prompts como "Segmentar as casas com danos causados por intempéries", e o Gemini usará seu conhecimento de mundo para identificar as marcas e texturas específicas associadas a esse tipo de dano, diferenciando-as de um simples reflexo ou ponto de ferrugem.

In an aerial photo of a subdivision, natural language segmentation is used to overlay masks on each "damaged house".

Por que isso é importante para os desenvolvedores

1: Linguagem flexível: vá além das classes rígidas e predefinidas. A abordagem de linguagem natural oferece a flexibilidade de criar soluções para consultas visuais longas específicas de seu setor e seus usuários.

2: Experiência simplificada para os desenvolvedores: comece a trabalhar em minutos com uma única API, sem a necessidade de localizar, treinar e hospedar modelos de segmentação especializados separados. Essa acessibilidade reduz a barreira inicial para a criação de aplicativos de visão sofisticados.


Comece a desenvolver hoje

Acreditamos que dar à linguagem uma conexão direta com a visão, pixel por pixel, desbloqueará uma nova geração de aplicativos inteligentes. Mal podemos esperar para ver o que você vai criar.

Comece imediatamente no Google AI Studio usando nossa demonstração interativa:

Demonstração de compreensão espacial

Ou, se preferir um ambiente Python, sinta-se à vontade para começar com nosso colab interativo de compreensão espacial.

Para começar a criar com a API Gemini, visite nosso guia para desenvolvedores e leia mais sobre como começar a usar a segmentação. Você também pode participar de nosso fórum de desenvolvedores para conhecer outros criadores, discutir casos de uso e obter ajuda da equipe da API Gemini.

Para obter resultados melhores, recomendamos as seguintes práticas:

1: Use o modelo gemini-2.5-flash.

2: Desative o conjunto thinking (thinkingBudget=0).

3: Não se afaste muito do prompt recomendado e solicite o JSON como formato de saída.

Give the segmentation masks for the objects. 
Output a JSON list of segmentation masks where each entry contains the 2D bounding box in the key "box_2d", the segmentation mask in key "mask", and the text label in the key "label". 
Use descriptive labels.
Plain text

Agradecimentos

Agradecemos Weicheng Kuo, Rich Munoz e Huizhong Chen por seu trabalho na segmentação do Gemini, Junyan Xu pelo trabalho na infraestrutura, Guillaume Vernade pelo trabalho na documentação e nos exemplos de código e toda a equipe de compreensão de imagens do Gemini, por chegarmos a esta versão. Por fim, gostaríamos de agradecer aos líderes de compreensão de imagens Xi Chen e Fei Xia e ao líder de compreensão multimodal Jean-Baptiste Alayrac.