Temos o prazer de apresentar o EmbeddingGemma, um novo modelo aberto de incorporação que oferece o melhor desempenho da categoria para seu tamanho. Projetado especificamente para IA no dispositivo, seu design altamente eficiente de 308 milhões de parâmetros permite criar aplicativos usando técnicas como geração aumentada via recuperação (RAG, na sigla em inglês) e pesquisa semântica que são executadas diretamente no hardware. Ele oferece incorporações privadas e de alta qualidade que funcionam em qualquer lugar, mesmo sem uma conexão com a Internet.
Link to Youtube Video (visible only when JS is disabled)
O EmbeddingGemma gera incorporações, que são representações numéricas — neste caso, de texto (como frases e documentos) — transformando-as em um vetor de números para representar significado em um espaço altamente dimensional. Quanto melhores as incorporações, melhor a representação do idioma, com todas as suas nuances e complexidades.
Ao criar um pipeline de RAG, você tem duas fases principais: recuperar o contexto relevante com base na entrada de um usuário e gerar respostas embasadas nesse contexto. Para fazer a recuperação, você pode gerar a incorporação do prompt de um usuário e calcular a semelhança com as incorporações de todos os documentos em seu sistema. Isso permite obter os trechos mais relevantes para a consulta de um usuário. Em seguida, esses trechos podem ser transmitidos para um modelo generativo, como o Gemma 3, juntamente com a consulta original do usuário, para gerar uma resposta contextualmente relevante, como entender que você precisa do número de seu marceneiro para obter ajuda com um piso de madeira danificado.
Para que esse pipeline de RAG seja eficaz, a qualidade da etapa de recuperação inicial é fundamental. Incorporações inadequadas recuperarão documentos irrelevantes, levando a respostas imprecisas ou sem sentido. É aqui que o desempenho do EmbeddingGemma brilha, fornecendo as representações de alta qualidade necessárias para habilitar aplicativos precisos e confiáveis no dispositivo.
O EmbeddingGemma oferece compreensão de texto de última geração para seu tamanho, com desempenho particularmente sólido na geração de incorporações multilíngues.
Veja como o EmbeddingGemma se compara a outros modelos populares de incorporação:
O modelo de 308 milhões de parâmetros é composto por aproximadamente 100 milhões de parâmetros de modelo e 200 milhões de parâmetros de incorporação. Ele foi projetado para oferecer alto desempenho e consumo mínimo de recursos.
O EmbeddingGemma permite que os desenvolvedores criem aplicativos flexíveis no dispositivo, com foco na privacidade. Ele gera incorporações de documentos diretamente no hardware do dispositivo, ajudando a garantir que os dados confidenciais do usuário estejam seguros. Ele utiliza o mesmo tokenizador que o Gemma 3n para processamento de texto, reduzindo o consumo de memória em aplicativos de RAG. Com o EmbeddingGemma, você desbloqueia novos recursos, como:
E, se esses exemplos não bastarem, você pode ajustar o EmbeddingGemma para um domínio, uma tarefa ou um idioma específicos com nosso notebook de início rápido.
Nossa meta é fornecer as melhores ferramentas para suas necessidades. Com este lançamento, agora você tem um modelo de incorporação para qualquer aplicativo.
Nossa prioridade era tornar o EmbeddingGemma acessível desde o primeiro dia, por isso, fizemos parcerias com desenvolvedores para ativar o suporte em plataformas e frameworks populares. Comece a criar hoje mesmo com a mesma tecnologia que habilitará experiências nas plataformas proprietárias do Google, como o Android, com as ferramentas que você já usa.