La forma en que la IA entiende visualmente las imágenes evolucionó enormemente. En un principio, la IA podía decirnos "dónde" estaba un objeto con cuadros delimitadores. Luego, llegaron los modelos de segmentación, que delineaban con precisión la forma de un objeto. Más recientemente, surgieron modelos de vocabulario abierto, lo que nos permite segmentar objetos utilizando etiquetas menos comunes como "bota de esquí azul" o "xilófono" sin necesidad de tener una lista predefinida de categorías.
Los modelos anteriores unían píxeles con sustantivos. Sin embargo, el verdadero desafío, la segmentación de imágenes conversacionales (estrechamente relacionada con la segmentación de expresiones de referencia en la literatura), exige una comprensión más profunda: analizar frases descriptivas complejas. En lugar de simplemente identificar "un automóvil", ¿qué pasaría si pudiéramos identificar "el automóvil que está más lejos"?
Hoy en día, la comprensión visual avanzada de Gemini aporta un nuevo nivel de segmentación de imágenes conversacionales. Gemini ahora "entiende" lo que le estás pidiendo que "vea".
La magia de esta función radica en los tipos de preguntas que puedes hacer. Al ir más allá de las simples etiquetas de una sola palabra, puedes revelar una forma más intuitiva y poderosa de interactuar con los datos visuales. Considera las 5 categorías de consultas a continuación.
Ahora, Gemini puede identificar objetos en función de sus complejas relaciones con los objetos que los rodean.
1: Comprensión relacional: "la persona que sostiene el paraguas"
2: Orden: "el tercer libro desde la izquierda"
3: Atributos comparativos: "la flor más marchita del ramo"
A veces, es necesario consultar con lógica condicional. Por ejemplo, puedes filtrar con consultas como "comida que es vegetariana"
. Gemini también puede manejar consultas con negaciones como "las personas que no están sentadas"
.
Aquí es donde brilla el conocimiento mundial de Gemini. Puedes pedirle que segmente cosas que no tienen una definición visual simple y fija. Esto incluye conceptos como "daño", "un desastre" u "oportunidad".
Cuando la apariencia por sí sola no es suficiente para distinguir la categoría precisa de un objeto, el usuario puede referirse a ella a través de una etiqueta de texto escrita presente en la imagen. Esto requiere habilidades de OCR para el modelo, uno de los puntos fuertes de Gemini 2.5.
Gemini no se limita a un solo idioma y puede manejar etiquetas en muchos idiomas diferentes.
Exploremos cómo estos tipos de consulta podrían permitir nuevos casos de uso.
Esta función transforma los flujos de trabajo creativos. En lugar de utilizar herramientas de selección complejas, un diseñador ahora puede dirigir el software con palabras. Esto permite un proceso más fluido e intuitivo, como cuando se pide seleccionar "la sombra que proyecta el edificio"
.
Para mantener la seguridad en el lugar de trabajo, debes identificar situaciones, no solo objetos. Con una indicación como "Resaltar a cualquier empleado en la fábrica que no use casco"
, Gemini comprende toda la instrucción condicional como una sola consulta, produciendo una máscara final y precisa solo para las personas que no cumplen con los requisitos.
"Daño" es un concepto abstracto con muchas formas visuales. Ahora, un ajustador de seguros ahora puede usar indicaciones como "Segmenta las casas con daños causados por el clima"
y Gemini utilizará su conocimiento mundial para identificar las abolladuras y texturas específicas asociadas con ese tipo de daño, distinguiéndolo de un simple reflejo u óxido.
1: Lenguaje flexible: ir más allá de las clases rígidas y predefinidas. El enfoque de lenguaje natural te brinda la flexibilidad para crear soluciones para la "larga cola" de consultas visuales que son específicas para tu industria y tus usuarios.
2: Experiencia simplificada para desarrolladores: comienza en minutos con una sola API. No es necesario encontrar, entrenar ni alojar modelos de segmentación separados y especializados. Esta accesibilidad reduce la barrera de entrada para crear aplicaciones de visión sofisticadas.
Creemos que dar al lenguaje una conexión directa con la visión en el nivel de los píxeles revelará una nueva generación de aplicaciones inteligentes. Estamos muy entusiasmados por ver lo que crearás.
Comienza de inmediato en Google AI Studio a través de nuestra guía interactiva:
O si prefieres un entorno Python, no dudes en comenzar con nuestro colab de comprensión espacial.
Para comenzar a compilar con la API de Gemini, visita nuestra guía para desarrolladores y lee más sobre cómo comenzar con la segmentación. También puedes unirte a nuestro foro de desarrolladores para conocer a otros desarrolladores, discutir tus casos de uso y obtener ayuda del equipo de la API de Gemini.
Para obtener los mejores resultados, te recomendamos seguir las siguientes prácticas recomendadas:
1: Usa el modelo gemini-2.5-flash
2: Desactiva el bloque de pensamiento (thinkingBudget=0
)
3: Mantén la indicación recomendada lo más posible y solicita JSON como formato de salida.
Give the segmentation masks for the objects.
Output a JSON list of segmentation masks where each entry contains the 2D bounding box in the key "box_2d", the segmentation mask in key "mask", and the text label in the key "label".
Use descriptive labels.
Agradecemos a Weicheng Kuo, Rich Munoz y Huizhong Chen por su trabajo en la segmentación de Gemini, Junyan Xu por su trabajo en infraestructura, Guillaume Vernade por su trabajo en la documentación y las muestras de código, y a todo el equipo de comprensión de imágenes de Gemini, que participó en la finalización de esta versión. Por último, nos gustaría agradecer a los líderes de comprensión de imágenes Xi Chen y Fei Xia, y al líder de comprensión multimodal Jean-Baptiste Alayrac.