Apresentamos o EmbeddingGemma: o melhor modelo aberto da categoria para incorporações no dispositivo

4 DE SETEMBRO DE 2025
Min Choi Product Manager Google DeepMind
Sahil Dua Lead Research Engineer Google DeepMind

Temos o prazer de apresentar o EmbeddingGemma, um novo modelo aberto de incorporação que oferece o melhor desempenho da categoria para seu tamanho. Projetado especificamente para IA no dispositivo, seu design altamente eficiente de 308 milhões de parâmetros permite criar aplicativos usando técnicas como geração aumentada via recuperação (RAG, na sigla em inglês) e pesquisa semântica que são executadas diretamente no hardware. Ele oferece incorporações privadas e de alta qualidade que funcionam em qualquer lugar, mesmo sem uma conexão com a Internet.

MTEB Score
O EmbeddingGemma é comparável a modelos populares com quase o dobro de seu tamanho.

O EmbeddingGemma é:

  • O melhor da categoria: o modelo aberto de incorporação de texto multilíngue com a mais alta classificação na categoria de até 500 milhões de parâmetros no comparativo de mercado Massive Text Embedding Benchmark (MTEB). Baseado na arquitetura do Gemma 3, o EmbeddingGemma é treinado em mais de 100 idiomas e é pequeno o suficiente para ser executado com menos de 200 MB de RAM com quantização.

  • Criado para funcionar de forma flexível off-line: pequeno, rápido e eficiente, ele oferece dimensões de saída personalizáveis (de 768 a 128 por meio da representação Matryoshka) e uma janela de contexto de 2 mil tokens para execução em dispositivos do cotidiano, como smartphones, laptops, computadores e muito mais. Ele é projetado para funcionar com o Gemma 3n e, juntos, eles desbloqueiam novos casos de uso para pipelines de RAG para dispositivos móveis, pesquisa semântica e muito mais.

Link to Youtube Video (visible only when JS is disabled)

Como o EmbeddingGemma ativa pipelines de RAG que priorizam dispositivos móveis

O EmbeddingGemma gera incorporações, que são representações numéricas — neste caso, de texto (como frases e documentos) — transformando-as em um vetor de números para representar significado em um espaço altamente dimensional. Quanto melhores as incorporações, melhor a representação do idioma, com todas as suas nuances e complexidades.

Ao criar um pipeline de RAG, você tem duas fases principais: recuperar o contexto relevante com base na entrada de um usuário e gerar respostas embasadas nesse contexto. Para fazer a recuperação, você pode gerar a incorporação do prompt de um usuário e calcular a semelhança com as incorporações de todos os documentos em seu sistema. Isso permite obter os trechos mais relevantes para a consulta de um usuário. Em seguida, esses trechos podem ser transmitidos para um modelo generativo, como o Gemma 3, juntamente com a consulta original do usuário, para gerar uma resposta contextualmente relevante, como entender que você precisa do número de seu marceneiro para obter ajuda com um piso de madeira danificado.

Para que esse pipeline de RAG seja eficaz, a qualidade da etapa de recuperação inicial é fundamental. Incorporações inadequadas recuperarão documentos irrelevantes, levando a respostas imprecisas ou sem sentido. É aqui que o desempenho do EmbeddingGemma brilha, fornecendo as representações de alta qualidade necessárias para habilitar aplicativos precisos e confiáveis no dispositivo.


Qualidade de última geração para seu tamanho

O EmbeddingGemma oferece compreensão de texto de última geração para seu tamanho, com desempenho particularmente sólido na geração de incorporações multilíngues.

Veja como o EmbeddingGemma se compara a outros modelos populares de incorporação:

MTEB Multilingual v2
Com compactos 308 milhões de parâmetros, o EmbeddingGemma é forte em tarefas como recuperação, classificação e agrupamento em clusters em comparação com modelos de incorporação populares de tamanho similar.

Pequeno, rápido e eficiente

O modelo de 308 milhões de parâmetros é composto por aproximadamente 100 milhões de parâmetros de modelo e 200 milhões de parâmetros de incorporação. Ele foi projetado para oferecer alto desempenho e consumo mínimo de recursos.

  • Para proporcionar o máximo de flexibilidade, o EmbeddingGemma utiliza o Matryoshka Representation Learning (MRL) para fornecer vários tamanhos de incorporação a partir de um único modelo. Os desenvolvedores podem usar o vetor completo de 768 dimensões para obter a máxima qualidade ou truncá-lo para dimensões menores (128, 256 ou 512) a fim de aumentar a velocidade e reduzir os custos de armazenamento.

  • Nós ultrapassamos os limites de velocidade com um tempo de inferência de incorporação inferior a 15 ms (256 tokens de entrada) no Edge TPU, o que significa que seus recursos de IA podem fornecer respostas em tempo real para oferecer interações fluidas e imediatas.

  • Com o uso do treinamento com reconhecimento de quantização (QAT, na sigla em inglês), reduzimos significativamente o consumo de RAM para menos de 200 MB, preservando a qualidade do modelo.


Off-line por design

O EmbeddingGemma permite que os desenvolvedores criem aplicativos flexíveis no dispositivo, com foco na privacidade. Ele gera incorporações de documentos diretamente no hardware do dispositivo, ajudando a garantir que os dados confidenciais do usuário estejam seguros. Ele utiliza o mesmo tokenizador que o Gemma 3n para processamento de texto, reduzindo o consumo de memória em aplicativos de RAG. Com o EmbeddingGemma, você desbloqueia novos recursos, como:

  • Pesquisas em todos os seus arquivos pessoais, mensagens SMS, e-mails e notificações ao mesmo tempo, sem uma conexão com a Internet.

  • Bots de chat personalizados, específicos de setor e ativados off-line por meio da RAG com o Gemma 3n.

  • Classificação de consultas do usuário em chamadas de função relevantes para ajudar na compreensão pelo agente para dispositivos móveis.


E, se esses exemplos não bastarem, você pode ajustar o EmbeddingGemma para um domínio, uma tarefa ou um idioma específicos com nosso notebook de início rápido.

Como escolher o modelo de incorporação certo para suas necessidades

Nossa meta é fornecer as melhores ferramentas para suas necessidades. Com este lançamento, agora você tem um modelo de incorporação para qualquer aplicativo.

  • Para casos de uso off-line no dispositivo: o EmbeddingGemma é a melhor opção porque ele é otimizado para privacidade, velocidade e eficiência.

  • Para a maioria das aplicações de larga escala do lado do servidor: explore nosso modelo de incorporação Gemini de última geração por meio da API Gemini para obter o máximo em qualidade e desempenho.


Comece a usar o EmbeddingGemma hoje mesmo

Nossa prioridade era tornar o EmbeddingGemma acessível desde o primeiro dia, por isso, fizemos parcerias com desenvolvedores para ativar o suporte em plataformas e frameworks populares. Comece a criar hoje mesmo com a mesma tecnologia que habilitará experiências nas plataformas proprietárias do Google, como o Android, com as ferramentas que você já usa.