O primeiro modelo Gemma foi lançado no início do ano passado e se expandiu para se tornar um próspero Gemmaverso com mais de 160 milhões de downloads coletivos. Esse ecossistema inclui nossa família com mais de uma dúzia de modelos especializados para tudo, desde proteção até aplicações médicas e, o mais inspirador, as inúmeras inovações da comunidade. De inovadores como a Roboflow, que cria a visão computacional corporativa, até o Institute of Science Tokyo, que cria variantes japonesas altamente capazes do Gemma, o trabalho de vocês nos mostrou o caminho a seguir.
Com base nesse momento incrível, temos o prazer de anunciar o lançamento completo do Gemma 3n. Embora o pré-lançamento do mês passado tenha oferecido um vislumbre, hoje você pode ter acesso a todo o poder dessa arquitetura com foco em dispositivos móveis. O Gemma 3n foi projetado para a comunidade de desenvolvedores que ajudou a moldar o Gemma. Ele tem o suporte de suas ferramentas favoritas, incluindo Hugging Face Transformers, llama.cpp, Google AI Edge, Ollama, MLX e muitas outras, para permitir que você o ajuste e implante em seus aplicativos no dispositivo com facilidade. Esta postagem é um detalhamento para os desenvolvedores: exploraremos algumas das inovações por trás do Gemma 3n, compartilharemos novos resultados de comparativos de mercado e mostraremos como começar a criar ainda hoje.
O Gemma 3n representa um grande avanço para a IA no dispositivo, trazendo recursos multimodais poderosos para dispositivos de borda com desempenho anteriormente visto apenas nos modelos baseados na nuvem do ano passado.
Link to Youtube Video (visible only when JS is disabled)
Alcançar esse salto no desempenho no dispositivo exigiu repensar o modelo a partir do zero. A base é a arquitetura exclusiva do Gemma 3n com foco em dispositivos móveis, e tudo começa com o MatFormer.
No núcleo do Gemma 3n está a arquitetura MatFormer (🪆Matryoshka Transformer), um novo transformador aninhado criado para inferência elástica. Pense nisso como as bonecas Matryoshka: um modelo maior contém versões menores e totalmente funcionais de si mesmo. Essa abordagem estende o conceito de aprendizado de representações Matryoshka de apenas incorporações para todos os componentes do transformador.
Durante o treinamento MatFormer do modelo de parâmetro efetivo 4B (E4B), um submodelo de parâmetro efetivo 2B (E2B) é simultaneamente otimizado dentro dele, como mostrado na figura acima. Isso fornece aos desenvolvedores dois recursos poderosos e casos de uso hoje:
1: Modelos pré-extraídos: você pode fazer o download e usar diretamente o modelo E4B principal para os recursos mais altos ou o submodelo E2B autônomo que já extraímos para você, oferecendo inferência até duas vezes mais rápida.
2: Tamanhos personalizados com Mix-n-Match: para um controle mais granular adaptado a restrições de hardware específicas, você pode criar um espectro de modelos de tamanho personalizado entre E2B e E4B usando um método que chamamos de Mix-n-Match. Essa técnica permite fracionar com precisão os parâmetros do modelo E4B, principalmente ajustando a dimensão oculta da rede de propagação direta por camada (de 8192 a 16384) e ignorando seletivamente algumas camadas. Estamos lançando o MatFormer Lab, uma ferramenta que mostra como recuperar esses modelos ideais, que foram identificados por meio da avaliação de várias configurações em comparativos de mercado como o MMLU.
Em relação ao futuro, a arquitetura MatFormer também abre caminho para a execução elástica. Embora não faça parte das implementações lançadas hoje, esse recurso permite que um único modelo E4B implantado alterne dinamicamente entre os caminhos de inferência E4B e E2B em tempo real, permitindo a otimização imediata do desempenho e do uso da memória com base na tarefa atual e na carga do dispositivo.
Os modelos Gemma 3n incorporam o Per-Layer Embeddings (PLE). Essa inovação é adaptada para a implantação no dispositivo, pois melhora drasticamente a qualidade do modelo sem aumentar o volume de memória de alta velocidade necessário no acelerador do dispositivo (GPU/TPU).
Embora os modelos Gemma 3n E2B e E4B tenham uma contagem total de parâmetros de 5B e 8B, respectivamente, o PLE permite que uma porção significativa desses parâmetros (as incorporações associadas a cada camada) seja carregada e computada de forma eficiente na CPU. Isso significa que apenas os pesos do transformador principal (aproximadamente 2B para E2B e 4B para E4B) precisam ficar na memória do acelerador, normalmente mais restrita (VRAM).
O processamento de entradas longas, como as sequências derivadas de streams de áudio e vídeo, é essencial para muitos aplicativos multimodais avançados no dispositivo. O Gemma 3n introduz o compartilhamento de cache KV, um recurso projetado para acelerar significativamente o tempo até o primeiro token para aplicativos de resposta de streaming.
O compartilhamento de cache KV otimiza a forma como o modelo lida coma fase inicial de processamento de entrada (geralmente chamada de fase de "preenchimento"). As chaves e os valores da camada intermediária da atenção local e global são compartilhados diretamente com todas as camadas superiores, proporcionando uma melhoria notável de duas vezes o desempenho de preenchimento em comparação com o Gemma 3 4B. Isso significa que o modelo pode ingerir e entender sequências de prompt longas muito mais rápido do que antes.
O Gemma 3n usa um codificador de áudio avançado baseado no Universal Speech Model (USM). O codificador gera um token para cada 160 ms de áudio (cerca de seis tokens por segundo), e esses tokens são integrados como entrada ao modelo de linguagem, fornecendo uma representação granular do contexto sonoro.
Esse recurso de áudio integrado desbloqueia recursos essenciais para o desenvolvimento no dispositivo, incluindo:
Observamos resultados particularmente sólidos de AST para tradução entre inglês e espanhol, francês, italiano e português, com um grande potencial para desenvolvedores que segmentam aplicativos nesses idiomas. Para tarefas como tradução de fala, o uso de prompts de cadeia de pensamento pode melhorar significativamente os resultados. Veja um exemplo:
<bos><start_of_turn>user
Transcribe the following speech segment in Spanish, then translate it into English:
<start_of_audio><end_of_turn>
<start_of_turn>model
No momento do lançamento, o codificador do Gemma 3n é implementado para processar clipes de áudio de até 30 segundos. No entanto, essa não é uma limitação fundamental. O codificador de áudio subjacente é um codificador de streaming, capaz de processar áudios arbitrariamente longos com treinamento adicional de áudio de formato longo. As próximas implementações desbloquearão apps de streaming longo e de baixa latência.
Juntamente com seus recursos de áudio integrados, o Gemma 3n apresenta um novo codificador de visão altamente eficiente, o MobileNet-V5-300M, que oferece desempenho de última geração para tarefas multimodais em dispositivos de borda.
Projetado para flexibilidade e potência em hardware restrito, o MobileNet-V5 oferece aos desenvolvedores:
Esse nível de desempenho é alcançado com várias inovações arquitetônicas, incluindo:
Ao se beneficiar de novos projetos arquitetônicos e técnicas avançadas de destilação, o MobileNet-V5-300M supera substancialmente o SoViT de linha de base no Gemma 3 (treinado com SigLip, sem destilação). Em um Edge TPU do Google Pixel, ele oferece uma aceleração de 13 vezes com quantização (6,5 vezes sem), requer 46% menos parâmetros e usa um espaço de memória 4 vezes menor, ao mesmo tempo em que fornece acurácia significativamente maior em tarefas de visão-linguagem.
Estamos ansiosos para compartilhar ainda mais sobre o trabalho por trás desse modelo. Não perca nosso próximo relatório técnico do MobileNet-V5, que se aprofundará na arquitetura do modelo, nas estratégias de escalonamento de dados e nas técnicas avançadas de destilação.
Tornar o Gemma 3n acessível desde o primeiro dia era nossa prioridade. Temos orgulho de nossas parcerias com muitos desenvolvedores incríveis de código aberto para garantir um amplo suporte em ferramentas e plataformas populares, incluindo contribuições de equipes por trás de nomes como AMD, Axolotl, Docker, Hugging Face, llama.cpp, LMStudio, MLX, NVIDIA, Ollama, RedHat, SGLang, Unsloth e vLLM.
Mas esse ecossistema é apenas o começo. O verdadeiro poder dessa tecnologia está no que você vai criar com ela. É por isso que estamos lançando o Desafio de Impacto do Gemma 3n. Sua missão: usar os exclusivos recursos no dispositivo, off-line e multimodais do Gemma 3n para criar um produto para um mundo melhor. Com US$ 150.000 em prêmios, estamos em busca de uma história em vídeo convincente e de uma demonstração do fator "uau" que mostre o impacto no mundo real. Participe do desafio e ajude a construir um futuro melhor.
Que tal explorar o potencial do Gemma 3n ainda hoje? Veja como: