A forma como a IA entende visualmente as imagens evoluiu tremendamente. No início, a IA era capaz de nos dizer "onde" estava um objeto usando caixas delimitadoras. Depois, vieram os modelos de segmentação, que delineavam com precisão a forma de um objeto. Mais recentemente, surgiram os modelos de vocabulário aberto, que nos permitem segmentar objetos usando rótulos menos comuns, como "bota de esqui azul" ou "xilofone", sem a necessidade de uma lista predefinida de categorias.
Os modelos anteriores faziam a correspondência de pixels com substantivos. No entanto, o verdadeiro desafio, a segmentação conversacional de imagens (diretamente relacionada à segmentação com base em expressões de referência da literatura), requer uma compreensão mais profunda: a análise de frases descritivas complexas. Em vez de simplesmente identificar "um carro", e se pudéssemos identificar "o carro que está mais distante"?
Hoje, a avançada compreensão visual do Gemini traz um novo nível de segmentação conversacional de imagens. Agora, o Gemini "entende" o que você está pedindo para "ver".
A magia desse recurso está nos tipos de perguntas que você pode fazer. Ao ir além de simples rótulos com uma única palavra, você pode desbloquear uma forma mais intuitiva e poderosa de interagir com dados visuais. Considere as cinco categorias de consultas abaixo.
Agora, o Gemini é capaz de identificar objetos com base em suas relações complexas com os objetos a seu redor.
1: Compreensão relacional: "a pessoa que está segurando o guarda-chuva"
.
2: Ordenação: "o terceiro livro a partir da esquerda"
.
3: Atributos comparativos: "a flor mais murcha do buquê"
.
Às vezes, é preciso consultar usando a lógica condicional. Por exemplo, você pode fazer uma filtragem com consultas como "alimentos que sejam vegetarianos"
. O Gemini também pode lidar com consultas com negações, como "as pessoas que não estão sentadas"
.
É aqui que o conhecimento de mundo do Gemini se destaca. Você pode pedir a ele para segmentar coisas que não tenham uma definição visual simples e fixa. Isso inclui conceitos como "dano", "bagunça" ou "oportunidade".
Quando a aparência por si só não é suficiente para distinguir a categoria precisa de um objeto, o usuário pode se referir a ele usando um rótulo de texto escrito presente na imagem. Isso requer habilidades de OCR para o modelo, um dos pontos fortes do Gemini 2.5.
O Gemini não se restringe a um único idioma e é capaz de lidar com rótulos em muitos idiomas diferentes.
Vamos explorar como esses tipos de consultas podem ativar novos casos de uso.
Esse recurso transforma os fluxos de trabalho criativos. Em vez de usar ferramentas de seleção complexas, agora, o designer pode orientar o software usando palavras. Isso permite um processo mais fluido e intuitivo, como pedir para selecionar "a sombra projetada pelo edifício"
.
Para a segurança no local de trabalho, você precisa identificar situações, e não apenas objetos. Com um prompt como "Destaque qualquer funcionário no chão de fábrica que não esteja usando um capacete"
, o Gemini compreende toda a instrução condicional como uma única consulta, produzindo uma máscara final precisa apenas dos indivíduos fora de conformidade.
"Dano" é um conceito abstrato e com muitas formas visuais. Agora, um avaliador de seguros pode usar prompts como "Segmentar as casas com danos causados por intempéries"
, e o Gemini usará seu conhecimento de mundo para identificar as marcas e texturas específicas associadas a esse tipo de dano, diferenciando-as de um simples reflexo ou ponto de ferrugem.
1: Linguagem flexível: vá além das classes rígidas e predefinidas. A abordagem de linguagem natural oferece a flexibilidade de criar soluções para consultas visuais longas específicas de seu setor e seus usuários.
2: Experiência simplificada para os desenvolvedores: comece a trabalhar em minutos com uma única API, sem a necessidade de localizar, treinar e hospedar modelos de segmentação especializados separados. Essa acessibilidade reduz a barreira inicial para a criação de aplicativos de visão sofisticados.
Acreditamos que dar à linguagem uma conexão direta com a visão, pixel por pixel, desbloqueará uma nova geração de aplicativos inteligentes. Mal podemos esperar para ver o que você vai criar.
Comece imediatamente no Google AI Studio usando nossa demonstração interativa:
Ou, se preferir um ambiente Python, sinta-se à vontade para começar com nosso colab interativo de compreensão espacial.
Para começar a criar com a API Gemini, visite nosso guia para desenvolvedores e leia mais sobre como começar a usar a segmentação. Você também pode participar de nosso fórum de desenvolvedores para conhecer outros criadores, discutir casos de uso e obter ajuda da equipe da API Gemini.
Para obter resultados melhores, recomendamos as seguintes práticas:
1: Use o modelo gemini-2.5-flash.
2: Desative o conjunto thinking (thinkingBudget=0
).
3: Não se afaste muito do prompt recomendado e solicite o JSON como formato de saída.
Give the segmentation masks for the objects.
Output a JSON list of segmentation masks where each entry contains the 2D bounding box in the key "box_2d", the segmentation mask in key "mask", and the text label in the key "label".
Use descriptive labels.
Agradecemos Weicheng Kuo, Rich Munoz e Huizhong Chen por seu trabalho na segmentação do Gemini, Junyan Xu pelo trabalho na infraestrutura, Guillaume Vernade pelo trabalho na documentação e nos exemplos de código e toda a equipe de compreensão de imagens do Gemini, por chegarmos a esta versão. Por fim, gostaríamos de agradecer aos líderes de compreensão de imagens Xi Chen e Fei Xia e ao líder de compreensão multimodal Jean-Baptiste Alayrac.