Apresentamos o Gemma 3n: o guia para desenvolvedores

26 DE JUNHO DE 2025

Omar Sanseviero Staff Developer Relations Engineer

Ian Ballantyne Senior Developer Relations Engineer Google DeepMind

O primeiro modelo Gemma foi lançado no início do ano passado e se expandiu para se tornar um próspero Gemmaverso com mais de 160 milhões de downloads coletivos. Esse ecossistema inclui nossa família com mais de uma dúzia de modelos especializados para tudo, desde proteção até aplicações médicas e, o mais inspirador, as inúmeras inovações da comunidade. De inovadores como a Roboflow, que cria a visão computacional corporativa, até o Institute of Science Tokyo, que cria variantes japonesas altamente capazes do Gemma, o trabalho de vocês nos mostrou o caminho a seguir.

Com base nesse momento incrível, temos o prazer de anunciar o lançamento completo do Gemma 3n. Embora o pré-lançamento do mês passado tenha oferecido um vislumbre, hoje você pode ter acesso a todo o poder dessa arquitetura com foco em dispositivos móveis. O Gemma 3n foi projetado para a comunidade de desenvolvedores que ajudou a moldar o Gemma. Ele tem o suporte de suas ferramentas favoritas, incluindo Hugging Face Transformers, llama.cpp, Google AI Edge, Ollama, MLX e muitas outras, para permitir que você o ajuste e implante em seus aplicativos no dispositivo com facilidade. Esta postagem é um detalhamento para os desenvolvedores: exploraremos algumas das inovações por trás do Gemma 3n, compartilharemos novos resultados de comparativos de mercado e mostraremos como começar a criar ainda hoje.

O que há de novo no Gemma 3n?

O Gemma 3n representa um grande avanço para a IA no dispositivo, trazendo recursos multimodais poderosos para dispositivos de borda com desempenho anteriormente visto apenas nos modelos baseados na nuvem do ano passado.

Link to Youtube Video (visible only when JS is disabled)

Multimodal por design: o Gemma 3n oferece suporte nativo a entradas de imagem, áudio, vídeo e texto e saídas de texto.

Otimizado para uso no dispositivo: projetados com foco na eficiência, os modelos Gemma 3n estão disponíveis em dois tamanhos com base em parâmetros efetivos: E2B e E4B. Embora sua contagem de parâmetros brutos seja de 5B e 8B, respectivamente, as inovações arquitetônicas permitem que eles sejam executados com um volume de memória comparável ao dos modelos 2B e 4B tradicionais, operando com apenas 2 GB (E2B) e 3 GB (E4B) de memória.

Arquitetura inovadora: em sua essência, Gemma 3n apresenta novos componentes como a arquitetura MatFormer para flexibilidade computacional, Per Layer Embeddings (PLE) para eficiência de memória, LAuReL e AltUp para eficiência arquitetônica e novos codificadores de áudio e visão baseados em MobileNet-v5 otimizados para casos de uso no dispositivo.

Qualidade aprimorada: o Gemma 3n oferece melhorias de qualidade em recursos multilíngues (com suporte a 140 idiomas para texto e compreensão multimodal de 35 idiomas), matemática, codificação e raciocínio. A versão E4B atinge uma pontuação superior a 1300 no LMArena, tornando-se o primeiro modelo com menos de 10 bilhões de parâmetros a atingir essa marca nos comparativos de mercado.

LMArena Text Arena Elo Score rankings for Gemini 1.5 Pro, Gemma 3n E4B llama 4 Maverick 17B 128E GPT 4.1-nano and Phi-4

Alcançar esse salto no desempenho no dispositivo exigiu repensar o modelo a partir do zero. A base é a arquitetura exclusiva do Gemma 3n com foco em dispositivos móveis, e tudo começa com o MatFormer.

MatFormer: um modelo, vários tamanhos

No núcleo do Gemma 3n está a arquitetura MatFormer (🪆Matryoshka Transformer), um novo transformador aninhado criado para inferência elástica. Pense nisso como as bonecas Matryoshka: um modelo maior contém versões menores e totalmente funcionais de si mesmo. Essa abordagem estende o conceito de aprendizado de representações Matryoshka de apenas incorporações para todos os componentes do transformador.

Durante o treinamento MatFormer do modelo de parâmetro efetivo 4B (E4B), um submodelo de parâmetro efetivo 2B (E2B) é simultaneamente otimizado dentro dele, como mostrado na figura acima. Isso fornece aos desenvolvedores dois recursos poderosos e casos de uso hoje:

1: Modelos pré-extraídos: você pode fazer o download e usar diretamente o modelo E4B principal para os recursos mais altos ou o submodelo E2B autônomo que já extraímos para você, oferecendo inferência até duas vezes mais rápida.

2: Tamanhos personalizados com Mix-n-Match: para um controle mais granular adaptado a restrições de hardware específicas, você pode criar um espectro de modelos de tamanho personalizado entre E2B e E4B usando um método que chamamos de Mix-n-Match. Essa técnica permite fracionar com precisão os parâmetros do modelo E4B, principalmente ajustando a dimensão oculta da rede de propagação direta por camada (de 8192 a 16384) e ignorando seletivamente algumas camadas. Estamos lançando o MatFormer Lab, uma ferramenta que mostra como recuperar esses modelos ideais, que foram identificados por meio da avaliação de várias configurações em comparativos de mercado como o MMLU.

Pontuações do MMLU para os pontos de verificação do Gemma 3n pré-treinados em diferentes tamanhos de modelo (usando Mix-n-Match)

Em relação ao futuro, a arquitetura MatFormer também abre caminho para a execução elástica. Embora não faça parte das implementações lançadas hoje, esse recurso permite que um único modelo E4B implantado alterne dinamicamente entre os caminhos de inferência E4B e E2B em tempo real, permitindo a otimização imediata do desempenho e do uso da memória com base na tarefa atual e na carga do dispositivo.

Per-Layer Embeddings (PLE): mais eficiência da memória

Os modelos Gemma 3n incorporam o Per-Layer Embeddings (PLE). Essa inovação é adaptada para a implantação no dispositivo, pois melhora drasticamente a qualidade do modelo sem aumentar o volume de memória de alta velocidade necessário no acelerador do dispositivo (GPU/TPU).

Embora os modelos Gemma 3n E2B e E4B tenham uma contagem total de parâmetros de 5B e 8B, respectivamente, o PLE permite que uma porção significativa desses parâmetros (as incorporações associadas a cada camada) seja carregada e computada de forma eficiente na CPU. Isso significa que apenas os pesos do transformador principal (aproximadamente 2B para E2B e 4B para E4B) precisam ficar na memória do acelerador, normalmente mais restrita (VRAM).

Com o Per-Layer Embeddings, você pode usar o Gemma 3n E2B e ter apenas parâmetros aproximadamente 2B carregados no acelerador.

O processamento de entradas longas, como as sequências derivadas de streams de áudio e vídeo, é essencial para muitos aplicativos multimodais avançados no dispositivo. O Gemma 3n introduz o compartilhamento de cache KV, um recurso projetado para acelerar significativamente o tempo até o primeiro token para aplicativos de resposta de streaming.

O compartilhamento de cache KV otimiza a forma como o modelo lida coma fase inicial de processamento de entrada (geralmente chamada de fase de "preenchimento"). As chaves e os valores da camada intermediária da atenção local e global são compartilhados diretamente com todas as camadas superiores, proporcionando uma melhoria notável de duas vezes o desempenho de preenchimento em comparação com o Gemma 3 4B. Isso significa que o modelo pode ingerir e entender sequências de prompt longas muito mais rápido do que antes.

Compreensão de áudio: introdução da conversão de voz em texto e tradução

O Gemma 3n usa um codificador de áudio avançado baseado no Universal Speech Model (USM). O codificador gera um token para cada 160 ms de áudio (cerca de seis tokens por segundo), e esses tokens são integrados como entrada ao modelo de linguagem, fornecendo uma representação granular do contexto sonoro.

Esse recurso de áudio integrado desbloqueia recursos essenciais para o desenvolvimento no dispositivo, incluindo:

Reconhecimento automático de fala (ASR): permite a transcrição de voz em texto de alta qualidade diretamente no dispositivo.

Tradução automática de fala (AST): traduz o idioma falado como texto em outro idioma.

Observamos resultados particularmente sólidos de AST para tradução entre inglês e espanhol, francês, italiano e português, com um grande potencial para desenvolvedores que segmentam aplicativos nesses idiomas. Para tarefas como tradução de fala, o uso de prompts de cadeia de pensamento pode melhorar significativamente os resultados. Veja um exemplo:

<bos><start_of_turn>user
Transcribe the following speech segment in Spanish, then translate it into English: 
<start_of_audio><end_of_turn>
<start_of_turn>model

Plain text

No momento do lançamento, o codificador do Gemma 3n é implementado para processar clipes de áudio de até 30 segundos. No entanto, essa não é uma limitação fundamental. O codificador de áudio subjacente é um codificador de streaming, capaz de processar áudios arbitrariamente longos com treinamento adicional de áudio de formato longo. As próximas implementações desbloquearão apps de streaming longo e de baixa latência.

MobileNet-V5: novo codificador de visão de última geração

Juntamente com seus recursos de áudio integrados, o Gemma 3n apresenta um novo codificador de visão altamente eficiente, o MobileNet-V5-300M, que oferece desempenho de última geração para tarefas multimodais em dispositivos de borda.

Projetado para flexibilidade e potência em hardware restrito, o MobileNet-V5 oferece aos desenvolvedores:

Várias resoluções de entrada: suporte nativo a resoluções de 256 x 256, 512 x 512 e 768 x 768 pixels, permitindo equilibrar desempenho e detalhamento para aplicações específicas.

Ampla compreensão visual: cotreinado com extensos conjuntos de dados multimodais, ele se destaca em uma ampla gama de tarefas de compreensão de imagens e vídeo.

Alta capacidade de processamento: processa até 60 quadros por segundo em um Google Pixel, permitindo análise de vídeo em tempo real no dispositivo e experiências interativas.

Esse nível de desempenho é alcançado com várias inovações arquitetônicas, incluindo:

Uma base avançada de blocos MobileNet-V4 (incluindo Universal Inverted Bottlenecks e Mobile MQA).

Uma arquitetura significativamente expandida, com um modelo híbrido em pirâmide profunda que é 10 vezes maior do que a maior variante do MobileNet-V4.

Um novo adaptador de VLM Multi-Scale Fusion que melhora a qualidade dos tokens para aumentar a acurácia e a eficiência.

Ao se beneficiar de novos projetos arquitetônicos e técnicas avançadas de destilação, o MobileNet-V5-300M supera substancialmente o SoViT de linha de base no Gemma 3 (treinado com SigLip, sem destilação). Em um Edge TPU do Google Pixel, ele oferece uma aceleração de 13 vezes com quantização (6,5 vezes sem), requer 46% menos parâmetros e usa um espaço de memória 4 vezes menor, ao mesmo tempo em que fornece acurácia significativamente maior em tarefas de visão-linguagem.

Estamos ansiosos para compartilhar ainda mais sobre o trabalho por trás desse modelo. Não perca nosso próximo relatório técnico do MobileNet-V5, que se aprofundará na arquitetura do modelo, nas estratégias de escalonamento de dados e nas técnicas avançadas de destilação.

Criação com a comunidade

Tornar o Gemma 3n acessível desde o primeiro dia era nossa prioridade. Temos orgulho de nossas parcerias com muitos desenvolvedores incríveis de código aberto para garantir um amplo suporte em ferramentas e plataformas populares, incluindo contribuições de equipes por trás de nomes como AMD, Axolotl, Docker, Hugging Face, llama.cpp, LMStudio, MLX, NVIDIA, Ollama, RedHat, SGLang, Unsloth e vLLM.

Mas esse ecossistema é apenas o começo. O verdadeiro poder dessa tecnologia está no que você vai criar com ela. É por isso que estamos lançando o Desafio de Impacto do Gemma 3n. Sua missão: usar os exclusivos recursos no dispositivo, off-line e multimodais do Gemma 3n para criar um produto para um mundo melhor. Com US$ 150.000 em prêmios, estamos em busca de uma história em vídeo convincente e de uma demonstração do fator "uau" que mostre o impacto no mundo real. Participe do desafio e ajude a construir um futuro melhor.

Comece a usar o Gemma 3n hoje mesmo

Que tal explorar o potencial do Gemma 3n ainda hoje? Veja como:

Experimente diretamente: use o Google AI Studio para experimentar o Gemma 3n com apenas alguns cliques. Os modelos Gemma também podem ser implantados diretamente no Cloud Run a partir do AI Studio.

Faça o download dos modelos: encontre os pesos de modelos na Hugging Face e no Kaggle.

Aprenda e integre: aprofunde-se em nossa documentação abrangente para integrar rapidamente o Gemma a seus projetos ou comece com nossos guias de inferência e ajuste.

Crie com suas ferramentas favoritas de IA no dispositivo: Google AI Edge Gallery/LiteRT-LLM, Ollama, MLX, llama.cpp, Docker, transformers.js e outras.

Use suas ferramentas de desenvolvimento favoritas: aproveite seus frameworks e ferramentas preferidos, incluindo Hugging Face Transformers e TRL, NVIDIA NeMo Framework Unsloth e LMStudio.