Apresentamos o Gemma 3: Guia para desenvolvedores

MAR 12, 2025
Omar Sanseviero Staff Developer Relations Engineer
Philipp Schmid Developer Relations Engineer

Desde o lançamento inicial, já foram feitos mais de 100 milhões de downloads dos modelos Gemma, e a comunidade já criou mais de 60 mil variações para todos os tipos de casos de uso. Temos o prazer de apresentar o Gemma 3, nossa versão mais capacitada e avançada da família de modelos abertos Gemma, criada com base no sucesso das versões anteriores do Gemma. Recebemos o feedback da comunidade e adicionamos os recursos mais solicitados, como contexto mais longo, multimodalidade e muito mais!


O que há de novo no Gemma?

Link to Youtube Video (visible only when JS is disabled)

O Gemma 3 introduz a multimodalidade, dando suporte a entradas de visão-linguagem e saídas de texto. Ele lida com janelas de contexto de até 128 mil tokens, entende mais de 140 idiomas e oferece recursos avançados de matemática, raciocínio e chat, incluindo saídas estruturadas e chamadas de função. O Gemma 3 está disponível em quatro tamanhos (1B, 4B, 12B e 27B) como modelos pré-treinados, que podem ser ajustados para casos de uso e domínios específicos, e versões ajustadas para instruções de uso geral.

Comparison chart - Gemma models

Como o Gemma foi criado?

Os processos de pré-treinamento e pós-treinamento do Gemma foram otimizados usando uma combinação de destilação, aprendizado por reforço e mesclagem de modelos. Essa abordagem resulta em desempenho aprimorado em matemática, codificação e acompanhamento de instruções. O Gemma 3 usa um novo tokenizador para melhorar o suporte multilíngue a mais de 140 idiomas e foi treinado em tokens 2T para o 1B, 4T para o 4B, 12T para o 12B e 14T para o 27B, em TPUs do Google usando o framework JAX.

Para o pós-treinamento, o Gemma 3 utiliza quatro componentes:

  • Destilação de um modelo de instrução maior para os pontos de verificação pré-treinados do Gemma 3.

  • Aprendizado por reforço a partir do feedback humano (RLHF, na sigla em inglês) para alinhar as previsões do modelo às preferências humanas.

  • Aprendizado por reforço a partir do feedback de máquina (RLMF, na sigla em inglês) para aprimorar o raciocínio matemático.

  • Aprendizado por reforço a partir do feedback da execução (RLEF, na sigla em inglês) para melhorar os recursos de codificação.

Essas atualizações melhoraram significativamente os recursos de matemática, codificação e acompanhamento de instruções do modelo, fazendo dele o principal modelo compacto aberto no LMArena, com uma pontuação de 1338.

Graph showing a comparison of Model performance v. Size

As versões de instrução do Gemma 3 usam o mesmo formato de diálogo do Gemma 2, portanto, não é necessário atualizar o conjunto de ferramentas para fazer a atualização para a versão mais recente para entrada somente de texto. Para entrada de imagens, o Gemma 3 permite especificar imagens intercaladas com texto.


Exemplo de texto com múltiplas interações

<bos><start_of_turn>user
knock knock<end_of_turn>
<start_of_turn>model
who is there<end_of_turn>
<start_of_turn>user
Gemma<end_of_turn>
<start_of_turn>model
Gemma who?<end_of_turn>

Exemplo de imagem intercalada

<bos><start_of_turn>user
Image A: <start_of_image>
Image B: <start_of_image>
 
Label A: water lily
Label B:<end_of_turn>
<start_of_turn>model
Desert rote<end_of_turn>

Multimodalidade

O Gemma 3 tem um codificador de visão integrado baseado em SigLIP. O modelo de visão do Gemma 3, que foi mantido congelado durante o treinamento, é o mesmo em todos os seus diferentes tamanhos (4B, 12B e 27B). Graças a isso, o Gemma pode usar imagens e vídeos como entrada, o que permite que ele analise imagens, responda a perguntas sobre uma imagem, compare imagens, identifique objetos e até mesmo responda sobre o texto dentro de uma imagem. Embora o modelo tenha sido originalmente criado para trabalhar com imagens de 896 x 896 pixels, um novo algoritmo de janela adaptativa é usado para segmentar imagens de entrada, permitindo que o Gemma 3 trabalhe com imagens de alta resolução e não quadradas.

Gemma 3 Multimodality example
Entrada: Preciso me aquecer. Qual botão ativa o aquecimento?
Gemma 3 multimodality - output example
Com base na imagem, o botão que provavelmente ativa o aquecimento é 暖房 (Danbou). "暖房" significa "aquecimento" em japonês. Esse é o botão que você pressionaria para ativar a função de aquecimento no sistema de ar condicionado/controle climático. O botão com o sinal de adição (+) deve ajustar a temperatura após a seleção do modo de aquecimento.

ShieldGemma 2

O ShieldGemma 2 é um classificador de segurança de imagens 4B baseado no Gemma 3. Ele gera a saída de rótulos nas principais categorias de segurança, permitindo a moderação da segurança de imagens sintéticas (geradas por modelos de geração de imagens) e imagens naturais (que podem ser o filtro de entrada de um modelo de visão-linguagem, como Gemma 3). Saiba mais sobre o ShieldGemma 2.


O que você está criando?

Somos sempre surpreendidos pela engenhosidade da comunidade do Gemma e a expansão explosiva do Gemmaverso. De laboratórios de pesquisa pioneiros em novas técnicas de ajuste — como o método SimPO desenvolvido pelo Princeton NLP, que otimiza diretamente as preferências humanas sem um modelo de referência, e os LLMs de última geração para o búlgaro do treinamento da INSAT — até os desenvolvedores que treinam o Gemma em modalidades totalmente novas, como a Nexa AI fez com o OmniAudio. Mal podemos esperar para ver as suas próximas inovações.


Comece a usar o Gemma 3 hoje mesmo

Tudo pronto para explorar o potencial do Gemma 3 hoje? Veja como:

  • Experimente diretamente: use o Google AI Studio para experimentar o Gemma 3 com apenas alguns cliques.

  • Faça a implantação do seu jeito: o Gemma 3 oferece várias opções de implantação, incluindo API Google GenAI, Vertex AI, Cloud Run, Cloud TPU e Cloud GPU, e integrações a várias plataformas, oferecendo a flexibilidade de escolher a melhor opção para cada caso de uso.