Hoy, ponemos a disposición de todos los desarrolladores nuestro modelo de razonamiento integrado de robótica de última generación, Gemini Robotics-ER 1.5. Este es el primer modelo de Gemini Robotics que estará ampliamente disponible. Actúa como un modelo de razonamiento de alto nivel para un robot.
Este modelo se especializa en capacidades críticas para la robótica, como la comprensión visual y espacial, la planificación de tareas y la estimación del progreso. También puede llamar de forma nativa a herramientas, como la Búsqueda de Google, para encontrar información, y puede llamar a un modelo de visión-lenguaje-acción (VLA) o a cualquier otra función definida por el usuario de terceros para ejecutar la tarea.
Puedes comenzar a crear con Gemini Robotics-ER 1.5 hoy mismo en la versión preliminar a través de Google AI Studio y la API de Gemini.
Este modelo está diseñado para tareas que son notoriamente desafiantes para los robots. Imagínate pedirle a un robot: “¿Puedes clasificar estos objetos en los contenedores correctos de compost, reciclaje y basura?”. Para completar esta tarea, el robot debe buscar las pautas locales de reciclaje en Internet, comprender los objetos que tiene frente a él y descubrir cómo clasificarlos en función de las reglas locales, y luego hacer todos los pasos para completar la tarea. La mayoría de las tareas diarias, como esta, requieren información contextual y varios pasos para ser completadas.
Gemini Robotics-ER 1.5 es el primer modelo de pensamiento optimizado para este tipo de razonamiento integrado. Logra un rendimiento de vanguardia en puntos de referencia tanto académicos como internos, con base en casos de uso del mundo real de nuestro programa de tester de confianza.
Gemini Robotics-ER 1.5 está diseñado para aplicaciones de robótica y presenta varias funciones nuevas:
Puedes pensar en Gemini Robotics-ER 1.5 como el cerebro de alto nivel para tu robot. Puede comprender comandos complejos de lenguaje natural, razonar a través de tareas de largo horizonte y orquestar comportamientos sofisticados. Esto significa que sobresale no solo en la percepción, sino también en la comprensión de lo que está en una escena y de qué hay que hacer con ello.
Gemini Robotics-ER 1.5 puede dividir una solicitud compleja como “limpia la mesa” en un plan y llamar a las herramientas adecuadas para el trabajo, ya sea la API de hardware de un robot, un modelo de agarre especializado o un modelo de visión-lenguaje-acción (VLA) para el control motor.
Para que los robots puedan interactuar con el mundo físico que los rodea, deben ser capaces de percibir y comprender el entorno en el que existen. Gemini Robotics-ER 1.5 está ajustado para producir resultados espaciales de alta calidad, lo que permite que el modelo genere puntos 2D precisos para los objetos. Veamos algunos ejemplos que usan el SDK de GenAI de Gemini para Python para ayudarte a comenzar a usar este modelo en tus propias aplicaciones.
Con una imagen de una escena de la cocina determinada, Gemini Robotics-ER 1.5 puede proporcionar la ubicación de cada objeto (o parte de un objeto). Esta información se puede combinar con los sensores 3D del robot para determinar la ubicación exacta del objeto en el espacio, lo que permite que tu biblioteca de planificación genere un plan de movimiento preciso.
Indicación:
Señala los siguientes elementos en la imagen: jabón para platos, rejilla para platos, grifo, olla arrocera, unicornio. Los puntos están en formato [y, x] normalizados a 0-1000. Solo incluye objetos que estén realmente presentes en la imagen.
Observa que le pedimos al modelo que solo incluya los elementos solicitados que aparecen dentro de la imagen. Esto evita alucinaciones, como incluir un punto para el unicornio inexistente solicitado, y mantiene el modelo basado en la realidad de lo que puede ver. Podemos extender esta técnica a la salida de estados de objetos en un flujo de video, solo resaltando objetos de un estado específico, como un contenedor abierto o cerrado, cuando es visible dentro del cuadro. A continuación se muestra un video de promoción del modelo para señalar “marcador verde, bandeja marrón, cuaderno verde, computadora portátil (abierta), computadora portátil (cerrada), estuche de gafas (abierto), estuche de gafas (cerrado)”, que es una consulta que combina la comprensión espacial y la estimación del estado.
Si bien la ubicación de los objetos es esencial, el verdadero razonamiento espaciotemporal implica comprender la relación entre los objetos y las acciones a medida que se desarrollan con el tiempo. Gemini Robotics-ER 1.5 sobresale en esto al procesar video para comprender la causa y el efecto en el mundo físico. Por ejemplo, en el siguiente video, un par de brazos robóticos mueven un marcador verde a una bandeja de madera y luego mueven los bolígrafos azules y rojos al recipiente cilíndrico. Cuando le pedimos al modelo que revise la secuencia y nos diga qué tareas se realizaron en qué orden, además de qué tareas sucedieron entre dos marcas de tiempo, recibimos la respuesta correcta. Esto demuestra la capacidad de razonar sobre lo que sucedió en una escena, no solo sobre lo que hay en ella.
Indicación:
Describe en detalle cada paso para terminar la tarea. Desglosa por marca de tiempo, con salida en formato json con claves "start_timestamp", "end_timestamp" y "description".
Respuesta:
[
{
"start_timestamp": "00:02",
"end_timestamp": "00:13",
"description": "El brazo robótico izquierdo toma el marcador verde de la mesa y lo coloca en la bandeja de madera."
},
{
"start_timestamp": "00:15",
"end_timestamp": "00:22",
"description": "El brazo robótico izquierdo toma el bolígrafo azul de la mesa y lo coloca en el portalápices enrejado negro."
},
{
"start_timestamp": "00:23",
"end_timestamp": "00:28",
"description": "El brazo robótico derecho toma el bolígrafo rojo de la mesa y lo coloca en el portalápices enrejado negro, completando la tarea de organizar los útiles de escritura."
}
]
>acercar del segundo 15 al 22 y proporcionar un desglose por segundo de lo que está sucediendo en el mismo formato
[
{
"start_timestamp": "00:15",
"end_timestamp": "00:16",
"description": "El brazo robótico izquierdo comienza a moverse hacia el bolígrafo azul ubicado en la mesa a la izquierda del portalápices."
},
... (eliminado para hacerlo más breve, mira el video a continuación)
{
"start_timestamp": "00:21",
"end_timestamp": "00:22",
"description": "El brazo baja el bolígrafo hacia el portalápices y lo suelta, colocándolo hacia arriba dentro del contenedor."
}
]
El resultado es temporalmente preciso, y al superponerlo en el video original, muestra que el modelo tiene una comprensión precisa del movimiento del robot.
Cuando el pensamiento está habilitado, el modelo puede razonar sobre consultas complejas de cuadro delimitador y puntero. Aquí hay una demostración paso a paso de cómo usarlo en un ejemplo de preparación de café. Demuestra la comprensión del “cómo” y el “dónde” necesarios para que un humano o un robot termine una tarea.
Indicación:
Identifica dónde debo poner mi taza para hacer una taza de café. Devuelve una lista de objetos JSON en este formato: `[{"box_2d": [y_min, x_min, y_max, x_min], "label": <label>}]`, donde las coordenadas se normalizan entre 0-1000.
Respuesta:
¿Dónde debo poner la cápsula de café?
Respuesta:
Ahora, necesito cerrar la cafetera. Traza una trayectoria de 8 puntos que indique cómo debe moverse el mango de la tapa para cerrarla. Comienza desde el mango. Los puntos son [Y, X] en coordenadas normalizadas [0 - 1000]. Por favor, muestra todos los puntos, incluidos los puntos de trayectoria en el formato. [{"point": [Y, X], "label": } {"point": [Y, X], "label": }, , ...].
Respuesta:
Terminé mi café. ¿Dónde debo poner mi taza ahora para limpiarla? Devuelve una lista de objetos JSON en este formato: [{"point": [y, x], "label": <label>}], donde las coordenadas se normalizan entre 0-1000.
Este es otro ejemplo de combinación de planificación y conexión a tierra espacial para generar un plan “basado en el espacio”. Se puede obtener con un mensaje simple como este: “Explica cómo clasificar la basura en los contenedores. Señala cada objeto al que te refieres. Cada punto debe estar en este formato: [{"point": [y, x], "label": }], donde las coordenadas se normalizan entre 0-1000”. La respuesta contiene texto y puntos intercalados, y se puede representar para crear esta animación.
Este gráfico muestra una serie de ejemplos de cómo cambiar el presupuesto de pensamiento al usar el modelo Gemini Robotics-ER 1.5 y cómo eso afecta la latencia y el rendimiento. El rendimiento del modelo aumenta con un presupuesto de token de pensamiento creciente. Para tareas de comprensión espacial simples, como la detección de objetos, el rendimiento es alto con un presupuesto de pensamiento muy corto, mientras que un razonamiento más complejo se beneficia de un presupuesto mayor. Esto permite a los desarrolladores equilibrar la necesidad de respuestas de baja latencia con resultados de alta precisión para tareas más desafiantes.
Si bien el pensamiento está habilitado de forma predeterminada con el modelo Gemini Robotics-ER 1.5, puedes configurar un presupuesto de pensamiento, o incluso deshabilitar el pensamiento, si incluyes la opción thinking_config con tu solicitud. Puedes encontrar más información sobre los presupuestos de pensamiento de Gemini aquí.
Tenemos el compromiso de construir una base responsable para tus aplicaciones de robótica. Gemini Robotics-ER 1.5 realizó mejoras significativas en la seguridad, con filtros mejorados para estos dos aspectos:
Sin embargo, estas salvaguardas a nivel de modelo no son un sustituto de la rigurosa ingeniería de seguridad requerida para los sistemas físicos. Abogamos por un “enfoque de queso suizo” para la seguridad, donde múltiples capas de protección trabajan juntas. Los desarrolladores son responsables de implementar las prácticas recomendadas estándar de seguridad robótica, incluidas las paradas de emergencia, la prevención de colisiones y las evaluaciones exhaustivas de riesgos.
Gemini Robotics-ER 1.5 está disponible actualmente en versión preliminar. Proporciona las capacidades de percepción y planificación que necesitas para crear un motor de razonamiento para tu robot.
Este modelo es el componente de razonamiento fundamental de nuestro sistema más amplio de Gemini Robotics. Para comprender la ciencia detrás de nuestra visión del futuro de la robótica, incluidos los modelos de acción de extremo a extremo (VLA) y el aprendizaje entre integraciones, lee el blog de investigación y el informe técnico completo.