Criação da próxima geração de agentes físicos com o Gemini Robotics-ER 1.5

Hoje, estamos disponibilizando a todos os desenvolvedores nosso modelo de raciocínio incorporado de última geração para robótica, o Gemini Robotics-ER 1.5. Esse é o primeiro modelo Gemini Robotics a ser amplamente disponibilizado. Ele atua como um modelo de raciocínio de nível alto nível para robôs.

Esse modelo é especializado em recursos críticos para a robótica, incluindo compreensão visual e espacial, planejamento de tarefas e estimativa de progresso. Ele também pode chamar nativamente ferramentas como a Pesquisa Google para encontrar informações, além de poder chamar um modelo de visão-linguagem-ação (VLA, na sigla em inglês) ou qualquer outra função de terceiros definida pelo usuário para executar a tarefa.

Você pode começar a criar com o Gemini Robotics-ER 1.5 hoje mesmo na versão de pré-lançamento por meio do Google AI Studio e da API Gemini.

Esse modelo foi projetado para tarefas que são notoriamente desafiadoras para os robôs. Imagine perguntar a um robô: "Você pode classificar estes objetos nas lixeiras corretas de compostagem, reciclagem e lixo?". Para concluir essa tarefa, o robô precisa procurar as diretrizes locais de reciclagem na Internet, entender os objetos à sua frente e descobrir como classificá-los com base nas regras locais para, em seguida, executar todas as etapas de descarte. A maioria das tarefas diárias, como essa, requer informações contextuais e várias etapas para ser concluída.

O Gemini Robotics-ER 1.5 é o primeiro modelo de pensamento otimizado para esse tipo de raciocínio incorporado. Ele alcança um desempenho de última geração em comparativos de mercado acadêmicos e internos, inspirados em casos de uso do mundo real de nosso programa de trusted testers.

GeminiRoboticsER1.5_Graph-ER+Gen-RD3_V001

O modelo Gemini Robotics-ER 1.5 é nosso modelo mais avançado para o raciocínio incorporado, mantendo um alto desempenho como um modelo de base multimodal de uso geral. (O desempenho é medido como uma agregação em um conjunto de comparativos de mercado de raciocínio incorporado/geral; leia o relatório técnico para ver mais detalhes.)

Novidades do Gemini Robotics-ER 1.5

O Gemini Robotics-ER 1.5 é ajustado para aplicativos de robótica e introduz vários recursos novos:

Raciocínio espacial rápido e poderoso: obtenha uma compreensão espacial de última geração com a baixa latência de um modelo Gemini Flash. O modelo se destaca na geração de pontos 2D semanticamente precisos, embasados no raciocínio sobre tamanhos, pesos e affordances de itens, habilitando comandos como "aponte para qualquer coisa que você possa segurar" para uma interação precisa e responsiva.

Orquestração de comportamentos agênticos avançados: utilize o raciocínio espacial e temporal avançado, o planejamento e a detecção de sucesso para repetições confiáveis de execução de tarefas de horizonte longo (por exemplo, "reorganize minha mesa de acordo com esta imagem"). Ele também pode chamar nativamente ferramentas como a Pesquisa Google e quaisquer funções de terceiros definidas pelo usuário (por exemplo, "separe o lixo nas lixeiras corretas de acordo com as regras locais").

Orçamento de pensamento flexível: agora, você tem controle direto sobre o equilíbrio entre latência e acurácia. Isso significa que você pode deixar o modelo "pensar por mais tempo" para uma tarefa complexa, como planejar uma montagem com várias etapas, ou exigir respostas rápidas para uma tarefa reativa, como detectar ou apontar um objeto.

Filtros de segurança aprimorados: crie com mais confiança. O modelo tem segurança semântica aprimorada e, agora, funciona melhor para reconhecer e se recusar a gerar planos que violem restrições físicas (por exemplo, excedendo a capacidade de carga útil de um robô).

Um cérebro agêntico para robôs

Você pode pensar no Gemini Robotics-ER 1.5 como o cérebro de nível alto para seu robô. Ele é capaz de entender comandos complexos em linguagem natural, raciocinar em tarefas de horizonte longo e orquestrar comportamentos sofisticados. Isso significa que ele se destaca não só na percepção, mas também compreende o que há em uma cena e o que fazer a respeito.

O Gemini Robotics-ER 1.5 é capaz de dividir uma solicitação complexa, como "limpar a mesa", em um plano e chamar as ferramentas certas para o trabalho, seja a API de hardware de um robô, um modelo de captura especializado ou um modelo de visão-linguagem-ação (VLA) para o controle motor.

Compreensão espacial avançada

Para que os robôs possam interagir com o mundo físico a seu redor, eles precisam ser capazes de perceber e entender o ambiente em que estão. O Gemini Robotics-ER 1.5 é ajustado para produzir resultados espaciais de alta qualidade, permitindo que o modelo gere pontos 2D precisos para objetos. Vamos dar uma olhada em alguns exemplos que usam o SDK Gemini GenAI para Python para ajudar você a começar a usar esse modelo em seus próprios aplicativos.

GeminiRoboticsER1.5_Graph-PointingBenchmark-RD3_V001 (1)

O Gemini Robotics-ER 1.5 é o modelo de visão-linguagem mais preciso para a acurácia de apontamento.

Geração de pontos 2D

Dada uma imagem de uma cena de cozinha, o Gemini Robotics-ER 1.5 pode fornecer a localização de cada objeto (ou de parte de um objeto). Essas informações podem, então, ser combinadas com os sensores 3D do robô para determinar a localização exata do objeto no espaço, permitindo que sua biblioteca de planejamento gere um plano de movimentação preciso. (Obs.: os prompts a seguir foram traduzidos livremente do inglês, para fins informativos.)

Prompt:

Aponte para os seguintes itens na imagem: detergente, escorredor de louça, torneira, panela de arroz, unicórnio. Os pontos estão no formato [y, x] normalizados para 0-1000. Inclua apenas objetos que estejam realmente presentes na imagem."

Plain text

Observe como pedimos que o modelo inclua apenas os itens solicitados que aparecem na imagem. Isso evita alucinações, como a inclusão de um ponto para o unicórnio inexistente solicitado, e mantém o modelo embasado na realidade do que ele pode ver. Podemos estender essa técnica para gerar saídas de estados de objetos em um stream de vídeo, destacando apenas objetos com um estado específico, como um recipiente aberto ou fechado, quando visível dentro do frame. Veja abaixo um vídeo no qual é solicitado que o modelo aponte para "marca-texto verde, bandeja marrom, caderno verde, laptop (aberto), laptop (fechado), estojo de óculos (aberto), estojo de óculos (fechado)", uma consulta que combina compreensão espacial e estimativa de estado.

Raciocínio temporal

Embora a localização de objetos seja essencial, o verdadeiro raciocínio espaço-temporal envolve a compreensão da relação entre objetos e ações à medida que elas ocorrem ao longo do tempo. O Gemini Robotics-ER 1.5 se destaca nisso ao processar vídeos para entender a causa e efeito no mundo físico. Por exemplo, no vídeo a seguir, um par de braços robóticos movimenta um marca-texto verde para dentro de uma bandeja de madeira e, em seguida, movimenta as canetas azul e vermelha para dentro do recipiente cilíndrico. Quando pedimos ao modelo para revisar a sequência e nos dizer quais tarefas foram feitas em qual ordem, bem como quais tarefas aconteceram entre dois carimbos de data/hora, recebemos a resposta correta. Isso demonstra a capacidade de raciocinar sobre o que aconteceu em uma cena, e não apenas sobre o que há nela.

Prompt:

Descreva em detalhes cada etapa de conclusão da tarefa. Dividindo-a por carimbo de data/hora, gere a saída em formato json com as chaves "start_timestamp", "end_timestamp" e "description".

Plain text

Resposta:

[
  {
    "start_timestamp": "00:02",
    "end_timestamp": "00:13",
    "description": "The left robotic arm picks up the green marker from the table and places it into the wooden tray."
  },
  {
    "start_timestamp": "00:15",
    "end_timestamp": "00:22",
    "description": "The left robotic arm picks up the blue pen from the table and places it into the black mesh pen cup."
  },
  {
    "start_timestamp": "00:23",
    "end_timestamp": "00:28",
    "description": "The right robotic arm picks up the red pen from the table and places it into the black mesh pen cup, completing the task of organizing the writing utensils."
  }
]

Plain text

>amplie para os segundos de 15 a 22 e forneça um detalhamento por segundo do que está acontecendo no mesmo formato

[
  {
    "start_timestamp": "00:15",
    "end_timestamp": "00:16",
    "description": "The left robotic arm begins moving towards the blue pen located on the table to the left of the pen cup."
  },
  ... (removed for brevity, please take a look at the video below)
    {
    "start_timestamp": "00:21",
    "end_timestamp": "00:22",
    "description": "The arm lowers the pen into the cup and releases it, placing it upright inside the container."
  }
]

Plain text

A saída é temporalmente precisa, e sua sobreposição no vídeo original mostra que o modelo tem uma compreensão precisa dos movimentos do robô.

Raciocínio sobre affordances para a orquestração de tarefas de horizonte longo

Quando o pensamento está ativado, o modelo pode raciocinar sobre consultas complexas de apontamento e caixa delimitadora. Segue uma demonstração passo a passo de como usá-lo em um exemplo de preparação de café. O exemplo demonstra a compreensão do "como" e do "onde", necessária para que um humano ou um robô conclua uma tarefa.

Prompt:

Identifique onde devo colocar minha caneca para preparar uma xícara de café. Retorne uma lista de objetos JSON no formato: "[{"box_2d": [y_min, x_min, y_max, x_min], "label": <label>}]", em que as coordenadas são normalizadas entre 0-1000.

Plain text

Resposta:

Onde devo colocar a cápsula de café?

Plain text

Resposta:

Agora, eu preciso fechar a cafeteira. Trace uma trajetória de 8 pontos que indique como a alça da tampa deve se movimentar para fechar a tampa. Comece pela alça. Os pontos são [Y,X] em coordenadas normalizadas [0 - 1000]. Por favor, inclua todos os pontos na saída, inclusive os pontos de trajetória, no formato: [{"point": [Y, X], "label": },  {"point": [Y, X], "label": }, ...].

Plain text

Resposta:

Já tomei meu café. Onde devo colocar a caneca, agora, para lavar? Retorne uma lista de objetos JSON no formato: [{"point": [y, x], "label": <label>}], em que as coordenadas são normalizadas entre 0-1000.

Plain text

Segue outro exemplo de combinação de planejamento e embasamento espacial para gerar um plano "espacialmente embasado". Ele pode ser obtido com um simples prompt: "Explique como classificar o lixo nas lixeiras. Aponte para cada objeto ao qual você se referir. Cada ponto deve estar no formato: [{"point": [y, x], "label": }], em que as coordenadas são normalizadas entre 0-1000". A resposta contém texto e pontos intercalados e pode ser renderizada para criar esta animação.

Orçamento de pensamento flexível

Este gráfico mostra uma série de exemplos de mudanças no orçamento de pensamento ao usar o modelo Gemini Robotics-ER 1.5 e como isso afeta a latência e o desempenho. O desempenho do modelo aumenta com um orçamento crescente de tokens de pensamento. Para tarefas de compreensão espacial simples, como detecção de objetos, o desempenho é alto com um orçamento de pensamento muito restrito, enquanto o raciocínio mais complexo se beneficia de um orçamento mais alto. Isso permite que os desenvolvedores equilibrem a necessidade de respostas de baixa latência com resultados de alta acurácia para tarefas mais desafiadoras.

GeminiRoboticsER1.5_Graph-TTB-RD2_V001 (2)

O Gemini Robotics-ER 1.5 usa o escalonamento de computação de tempo de inferência para melhorar o desempenho. O orçamento de tokens de pensamento é ajustável. Isso permite que os desenvolvedores equilibrem a necessidade entre tarefas sensíveis à latência e resultados de alta acurácia para tarefas de raciocínio mais desafiadoras.

Embora o pensamento seja ativado por padrão com o modelo Gemini Robotics-ER 1.5, você pode definir um orçamento de pensamento ou até mesmo desativar o pensamento, incluindo a opção thinking_config em sua solicitação. Você pode encontrar mais informações sobre os orçamentos de pensamento do Gemini aqui.

Uma observação sobre segurança

Temos o compromisso de criar uma base responsável para seus aplicativos de robótica. O Gemini Robotics-ER 1.5 tem melhorias significativas de segurança, com filtros aprimorados para:

Segurança semântica: o modelo é projetado para entender e se recusar a gerar planos para tarefas perigosas ou prejudiciais, e seus recursos foram rigorosamente avaliados em relação a comparativos de mercado como o ASIMOV Benchmark.

Consciência de restrição física: agora, ele é significativamente melhor em reconhecer quando uma solicitação violaria uma restrição física definida por você, como a capacidade de carga útil de um robô ou os limites do espaço de trabalho.

No entanto, essas salvaguardas no nível do modelo não substituem a rigorosa engenharia de segurança necessária para sistemas físicos. Defendemos a "abordagem do queijo suíço" para a segurança, na qual várias camadas de proteção trabalham juntas. Os desenvolvedores são responsáveis pela implementação das práticas recomendadas de segurança robótica padrão, incluindo paradas de emergência, prevenção de colisões e avaliações de risco minuciosas.

Comece a criar hoje mesmo

O Gemini Robotics-ER 1.5 já está disponível em pré-lançamento. Ele fornece os recursos de percepção e planejamento necessários para criar um mecanismo de raciocínio para um robô.

Inicie o Google AI Studio para começar a experimentar o modelo.

Leia a documentação para desenvolvedores para obter uma referência completa de início rápido e API.

Explore nosso notebook do Colab para ver implementações práticas.

Aprofunde-se na pesquisa

Este modelo é o componente de raciocínio de base de nosso sistema Gemini Robotics mais amplo. Para entender a ciência por trás de nossa visão para o futuro da robótica, incluindo modelos de ação de ponta a ponta (VLA) e aprendizado entre incorporações, leia o blog de pesquisa e o relatório técnico completo.