Desde o lançamento inicial, já foram feitos mais de 100 milhões de downloads dos modelos Gemma, e a comunidade já criou mais de 60 mil variações para todos os tipos de casos de uso. Temos o prazer de apresentar o Gemma 3, nossa versão mais capacitada e avançada da família de modelos abertos Gemma, criada com base no sucesso das versões anteriores do Gemma. Recebemos o feedback da comunidade e adicionamos os recursos mais solicitados, como contexto mais longo, multimodalidade e muito mais!
Link to Youtube Video (visible only when JS is disabled)
O Gemma 3 introduz a multimodalidade, dando suporte a entradas de visão-linguagem e saídas de texto. Ele lida com janelas de contexto de até 128 mil tokens, entende mais de 140 idiomas e oferece recursos avançados de matemática, raciocínio e chat, incluindo saídas estruturadas e chamadas de função. O Gemma 3 está disponível em quatro tamanhos (1B, 4B, 12B e 27B) como modelos pré-treinados, que podem ser ajustados para casos de uso e domínios específicos, e versões ajustadas para instruções de uso geral.
Os processos de pré-treinamento e pós-treinamento do Gemma foram otimizados usando uma combinação de destilação, aprendizado por reforço e mesclagem de modelos. Essa abordagem resulta em desempenho aprimorado em matemática, codificação e acompanhamento de instruções. O Gemma 3 usa um novo tokenizador para melhorar o suporte multilíngue a mais de 140 idiomas e foi treinado em tokens 2T para o 1B, 4T para o 4B, 12T para o 12B e 14T para o 27B, em TPUs do Google usando o framework JAX.
Para o pós-treinamento, o Gemma 3 utiliza quatro componentes:
Essas atualizações melhoraram significativamente os recursos de matemática, codificação e acompanhamento de instruções do modelo, fazendo dele o principal modelo compacto aberto no LMArena, com uma pontuação de 1338.
As versões de instrução do Gemma 3 usam o mesmo formato de diálogo do Gemma 2, portanto, não é necessário atualizar o conjunto de ferramentas para fazer a atualização para a versão mais recente para entrada somente de texto. Para entrada de imagens, o Gemma 3 permite especificar imagens intercaladas com texto.
<bos><start_of_turn>user
knock knock<end_of_turn>
<start_of_turn>model
who is there<end_of_turn>
<start_of_turn>user
Gemma<end_of_turn>
<start_of_turn>model
Gemma who?<end_of_turn>
Exemplo de imagem intercalada
<bos><start_of_turn>user
Image A: <start_of_image>
Image B: <start_of_image>
Label A: water lily
Label B:<end_of_turn>
<start_of_turn>model
Desert rote<end_of_turn>
O Gemma 3 tem um codificador de visão integrado baseado em SigLIP. O modelo de visão do Gemma 3, que foi mantido congelado durante o treinamento, é o mesmo em todos os seus diferentes tamanhos (4B, 12B e 27B). Graças a isso, o Gemma pode usar imagens e vídeos como entrada, o que permite que ele analise imagens, responda a perguntas sobre uma imagem, compare imagens, identifique objetos e até mesmo responda sobre o texto dentro de uma imagem. Embora o modelo tenha sido originalmente criado para trabalhar com imagens de 896 x 896 pixels, um novo algoritmo de janela adaptativa é usado para segmentar imagens de entrada, permitindo que o Gemma 3 trabalhe com imagens de alta resolução e não quadradas.
O ShieldGemma 2 é um classificador de segurança de imagens 4B baseado no Gemma 3. Ele gera a saída de rótulos nas principais categorias de segurança, permitindo a moderação da segurança de imagens sintéticas (geradas por modelos de geração de imagens) e imagens naturais (que podem ser o filtro de entrada de um modelo de visão-linguagem, como Gemma 3). Saiba mais sobre o ShieldGemma 2.
Somos sempre surpreendidos pela engenhosidade da comunidade do Gemma e a expansão explosiva do Gemmaverso. De laboratórios de pesquisa pioneiros em novas técnicas de ajuste — como o método SimPO desenvolvido pelo Princeton NLP, que otimiza diretamente as preferências humanas sem um modelo de referência, e os LLMs de última geração para o búlgaro do treinamento da INSAT — até os desenvolvedores que treinam o Gemma em modalidades totalmente novas, como a Nexa AI fez com o OmniAudio. Mal podemos esperar para ver as suas próximas inovações.
Tudo pronto para explorar o potencial do Gemma 3 hoje? Veja como: