Creación de la próxima generación de agentes físicos con Gemini Robotics-ER 1.5

Hoy, ponemos a disposición de todos los desarrolladores nuestro modelo de razonamiento integrado de robótica de última generación, Gemini Robotics-ER 1.5. Este es el primer modelo de Gemini Robotics que estará ampliamente disponible. Actúa como un modelo de razonamiento de alto nivel para un robot.

Este modelo se especializa en capacidades críticas para la robótica, como la comprensión visual y espacial, la planificación de tareas y la estimación del progreso. También puede llamar de forma nativa a herramientas, como la Búsqueda de Google, para encontrar información, y puede llamar a un modelo de visión-lenguaje-acción (VLA) o a cualquier otra función definida por el usuario de terceros para ejecutar la tarea.

Puedes comenzar a crear con Gemini Robotics-ER 1.5 hoy mismo en la versión preliminar a través de Google AI Studio y la API de Gemini.

Este modelo está diseñado para tareas que son notoriamente desafiantes para los robots. Imagínate pedirle a un robot: “¿Puedes clasificar estos objetos en los contenedores correctos de compost, reciclaje y basura?”. Para completar esta tarea, el robot debe buscar las pautas locales de reciclaje en Internet, comprender los objetos que tiene frente a él y descubrir cómo clasificarlos en función de las reglas locales, y luego hacer todos los pasos para completar la tarea. La mayoría de las tareas diarias, como esta, requieren información contextual y varios pasos para ser completadas.

Gemini Robotics-ER 1.5 es el primer modelo de pensamiento optimizado para este tipo de razonamiento integrado. Logra un rendimiento de vanguardia en puntos de referencia tanto académicos como internos, con base en casos de uso del mundo real de nuestro programa de tester de confianza.

GeminiRoboticsER1.5_Graph-ER+Gen-RD3_V001

El modelo Gemini Robotics-ER 1.5 es nuestro modelo más avanzado para el razonamiento integrado y, a su vez, conserva un fuerte rendimiento como modelo de base multimodal de propósito general. (El rendimiento se mide como una agregación en un conjunto de puntos de referencia de razonamiento integrados/generales. Lee el informe técnico para obtener más información).

Novedades de Gemini Robotics-ER 1.5

Gemini Robotics-ER 1.5 está diseñado para aplicaciones de robótica y presenta varias funciones nuevas:

Razonamiento espacial rápido y potente: Obtén una comprensión espacial de vanguardia con la baja latencia de un modelo Gemini Flash. El modelo se destaca por generar puntos 2D semánticamente precisos, basados en el razonamiento sobre los tamaños de los artículos, los pesos y las comodidades, lo que permite utilizar comandos como “señala cualquier cosa que puedas recoger” para una interacción precisa y receptiva.

Orquestar comportamientos agénticos avanzados: Aprovecha el razonamiento espacial y temporal avanzado, la planificación y la detección del éxito para obtener ciclos de ejecución de tareas fiables a largo plazo (por ejemplo, “reorganiza mi escritorio de acuerdo con esta imagen”). También puede llamar de forma nativa a herramientas como la herramienta de Búsqueda de Google y a cualquier función definida por el usuario de terceros (por ejemplo, “separa la basura en los contenedores correctos de acuerdo con las reglas locales”).

Presupuesto de pensamiento flexible: Ahora tienes control directo sobre la latencia frente a la compensación de precisión. Esto significa que puedes dejar que el modelo “piense más tiempo” para una tarea compleja, como planificar un ensamblaje de varios pasos, o exigir respuestas rápidas para una tarea reactiva, como detectar o señalar un objeto.

Filtros de seguridad mejorados: Construye con mayor confianza. El modelo mejoró la seguridad semántica y ahora es mejor para reconocer y negarse a generar planes que infrinjan las restricciones físicas (por ejemplo, exceder la capacidad de carga útil de un robot).

Un cerebro agéntico para tu robot

Puedes pensar en Gemini Robotics-ER 1.5 como el cerebro de alto nivel para tu robot. Puede comprender comandos complejos de lenguaje natural, razonar a través de tareas de largo horizonte y orquestar comportamientos sofisticados. Esto significa que sobresale no solo en la percepción, sino también en la comprensión de lo que está en una escena y de qué hay que hacer con ello.

Gemini Robotics-ER 1.5 puede dividir una solicitud compleja como “limpia la mesa” en un plan y llamar a las herramientas adecuadas para el trabajo, ya sea la API de hardware de un robot, un modelo de agarre especializado o un modelo de visión-lenguaje-acción (VLA) para el control motor.

Comprensión espacial avanzada

Para que los robots puedan interactuar con el mundo físico que los rodea, deben ser capaces de percibir y comprender el entorno en el que existen. Gemini Robotics-ER 1.5 está ajustado para producir resultados espaciales de alta calidad, lo que permite que el modelo genere puntos 2D precisos para los objetos. Veamos algunos ejemplos que usan el SDK de GenAI de Gemini para Python para ayudarte a comenzar a usar este modelo en tus propias aplicaciones.

GeminiRoboticsER1.5_Graph-PointingBenchmark-RD3_V001 (1)

Gemini Robotics-ER 1.5 es el modelo de visión y lenguaje más exacto para la precisión de puntería.

Generación de puntos 2D

Con una imagen de una escena de la cocina determinada, Gemini Robotics-ER 1.5 puede proporcionar la ubicación de cada objeto (o parte de un objeto). Esta información se puede combinar con los sensores 3D del robot para determinar la ubicación exacta del objeto en el espacio, lo que permite que tu biblioteca de planificación genere un plan de movimiento preciso.

Indicación:

Señala los siguientes elementos en la imagen: jabón para platos, rejilla para platos, grifo, olla arrocera, unicornio. Los puntos están en formato [y, x] normalizados a 0-1000. Solo incluye objetos que estén realmente presentes en la imagen.

Plain text

Observa que le pedimos al modelo que solo incluya los elementos solicitados que aparecen dentro de la imagen. Esto evita alucinaciones, como incluir un punto para el unicornio inexistente solicitado, y mantiene el modelo basado en la realidad de lo que puede ver. Podemos extender esta técnica a la salida de estados de objetos en un flujo de video, solo resaltando objetos de un estado específico, como un contenedor abierto o cerrado, cuando es visible dentro del cuadro. A continuación se muestra un video de promoción del modelo para señalar “marcador verde, bandeja marrón, cuaderno verde, computadora portátil (abierta), computadora portátil (cerrada), estuche de gafas (abierto), estuche de gafas (cerrado)”, que es una consulta que combina la comprensión espacial y la estimación del estado.

Razonamiento temporal

Si bien la ubicación de los objetos es esencial, el verdadero razonamiento espaciotemporal implica comprender la relación entre los objetos y las acciones a medida que se desarrollan con el tiempo. Gemini Robotics-ER 1.5 sobresale en esto al procesar video para comprender la causa y el efecto en el mundo físico. Por ejemplo, en el siguiente video, un par de brazos robóticos mueven un marcador verde a una bandeja de madera y luego mueven los bolígrafos azules y rojos al recipiente cilíndrico. Cuando le pedimos al modelo que revise la secuencia y nos diga qué tareas se realizaron en qué orden, además de qué tareas sucedieron entre dos marcas de tiempo, recibimos la respuesta correcta. Esto demuestra la capacidad de razonar sobre lo que sucedió en una escena, no solo sobre lo que hay en ella.

Indicación:

Describe en detalle cada paso para terminar la tarea. Desglosa por marca de tiempo, con salida en formato json con claves "start_timestamp", "end_timestamp" y "description".

Plain text

Respuesta:

[
  {
    "start_timestamp": "00:02",
    "end_timestamp": "00:13",
    "description": "El brazo robótico izquierdo toma el marcador verde de la mesa y lo coloca en la bandeja de madera."
  },
  {
    "start_timestamp": "00:15",
    "end_timestamp": "00:22",
    "description": "El brazo robótico izquierdo toma el bolígrafo azul de la mesa y lo coloca en el portalápices enrejado negro."
  },
  {
    "start_timestamp": "00:23",
    "end_timestamp": "00:28",
    "description": "El brazo robótico derecho toma el bolígrafo rojo de la mesa y lo coloca en el portalápices enrejado negro, completando la tarea de organizar los útiles de escritura."
  }
]

Plain text

>acercar del segundo 15 al 22 y proporcionar un desglose por segundo de lo que está sucediendo en el mismo formato

[
  {
    "start_timestamp": "00:15",
    "end_timestamp": "00:16",
    "description": "El brazo robótico izquierdo comienza a moverse hacia el bolígrafo azul ubicado en la mesa a la izquierda del portalápices."
  },
  ... (eliminado para hacerlo más breve, mira el video a continuación)
    {
    "start_timestamp": "00:21",
    "end_timestamp": "00:22",
    "description": "El brazo baja el bolígrafo hacia el portalápices y lo suelta, colocándolo hacia arriba dentro del contenedor."
  }
]

Plain text

El resultado es temporalmente preciso, y al superponerlo en el video original, muestra que el modelo tiene una comprensión precisa del movimiento del robot.

Razonamiento sobre las posibilidades de orquestar tareas a largo plazo

Cuando el pensamiento está habilitado, el modelo puede razonar sobre consultas complejas de cuadro delimitador y puntero. Aquí hay una demostración paso a paso de cómo usarlo en un ejemplo de preparación de café. Demuestra la comprensión del “cómo” y el “dónde” necesarios para que un humano o un robot termine una tarea.

Indicación:

Identifica dónde debo poner mi taza para hacer una taza de café. Devuelve una lista de objetos JSON en este formato: `[{"box_2d": [y_min, x_min, y_max, x_min], "label": <label>}]`, donde las coordenadas se normalizan entre 0-1000.

Plain text

Respuesta:

¿Dónde debo poner la cápsula de café?

Plain text

Respuesta:

Ahora, necesito cerrar la cafetera. Traza una trayectoria de 8 puntos que indique cómo debe moverse el mango de la tapa para cerrarla. Comienza desde el mango. Los puntos son [Y, X] en coordenadas normalizadas [0 - 1000]. Por favor, muestra todos los puntos, incluidos los puntos de trayectoria en el formato. [{"point": [Y, X], "label": }  {"point": [Y, X], "label": },  , ...].

Plain text

Respuesta:

Terminé mi café. ¿Dónde debo poner mi taza ahora para limpiarla? Devuelve una lista de objetos JSON en este formato: [{"point": [y, x], "label": <label>}], donde las coordenadas se normalizan entre 0-1000.

Plain text

Este es otro ejemplo de combinación de planificación y conexión a tierra espacial para generar un plan “basado en el espacio”. Se puede obtener con un mensaje simple como este: “Explica cómo clasificar la basura en los contenedores. Señala cada objeto al que te refieres. Cada punto debe estar en este formato: [{"point": [y, x], "label": }], donde las coordenadas se normalizan entre 0-1000”. La respuesta contiene texto y puntos intercalados, y se puede representar para crear esta animación.

Presupuesto de pensamiento flexible

Este gráfico muestra una serie de ejemplos de cómo cambiar el presupuesto de pensamiento al usar el modelo Gemini Robotics-ER 1.5 y cómo eso afecta la latencia y el rendimiento. El rendimiento del modelo aumenta con un presupuesto de token de pensamiento creciente. Para tareas de comprensión espacial simples, como la detección de objetos, el rendimiento es alto con un presupuesto de pensamiento muy corto, mientras que un razonamiento más complejo se beneficia de un presupuesto mayor. Esto permite a los desarrolladores equilibrar la necesidad de respuestas de baja latencia con resultados de alta precisión para tareas más desafiantes.

GeminiRoboticsER1.5_Graph-TTB-RD2_V001 (2)

Gemini Robotics-ER 1.5 utiliza el escalado de cómputo de tiempo de inferencia para mejorar el rendimiento. El presupuesto de token de pensamiento es ajustable. Esto permite a los desarrolladores equilibrar la necesidad entre tareas sensibles a la latencia con resultados de alta precisión para tareas de razonamiento más desafiantes.

Si bien el pensamiento está habilitado de forma predeterminada con el modelo Gemini Robotics-ER 1.5, puedes configurar un presupuesto de pensamiento, o incluso deshabilitar el pensamiento, si incluyes la opción thinking_config con tu solicitud. Puedes encontrar más información sobre los presupuestos de pensamiento de Gemini aquí.

Una nota sobre seguridad

Tenemos el compromiso de construir una base responsable para tus aplicaciones de robótica. Gemini Robotics-ER 1.5 realizó mejoras significativas en la seguridad, con filtros mejorados para estos dos aspectos:

Seguridad semántica: El modelo está diseñado para comprender y negarse a generar planes para tareas peligrosas o dañinas, con sus capacidades rigurosamente evaluadas contra puntos de referencia como el punto de referencia ASIMOV.

Reconocimiento de restricciones físicas: Ahora es significativamente mejor para reconocer cuándo una solicitud puede violar una restricción física que tú definas, como la capacidad de carga útil de un robot o los límites del espacio de trabajo.

Sin embargo, estas salvaguardas a nivel de modelo no son un sustituto de la rigurosa ingeniería de seguridad requerida para los sistemas físicos. Abogamos por un “enfoque de queso suizo” para la seguridad, donde múltiples capas de protección trabajan juntas. Los desarrolladores son responsables de implementar las prácticas recomendadas estándar de seguridad robótica, incluidas las paradas de emergencia, la prevención de colisiones y las evaluaciones exhaustivas de riesgos.

Comienza a compilar hoy mismo

Gemini Robotics-ER 1.5 está disponible actualmente en versión preliminar. Proporciona las capacidades de percepción y planificación que necesitas para crear un motor de razonamiento para tu robot.

Inicia Google AI Studio para comenzar a experimentar con el modelo.

Lee la documentación para desarrolladores a fin de obtener una referencia completa de la API y el inicio rápido.

Explora nuestro cuaderno de Colab para ver implementaciones prácticas.

Sumérgete más en la investigación

Este modelo es el componente de razonamiento fundamental de nuestro sistema más amplio de Gemini Robotics. Para comprender la ciencia detrás de nuestra visión del futuro de la robótica, incluidos los modelos de acción de extremo a extremo (VLA) y el aprendizaje entre integraciones, lee el blog de investigación y el informe técnico completo.