Modelos Gemma 3 QAT: IA de última geração para GPUs de consumidor final

18 DE ABRIL DE 2025

Edouard YVINEC Research Scientist

Phil Culliton ML Engineer

No mês passado, lançamos o Gemma 3, nossa mais recente geração de modelos abertos. Com desempenho de última geração, o Gemma 3 rapidamente se estabeleceu como um modelo líder, que pode ser executado em uma única GPU de ponta, como a NVIDIA H100, usando sua precisão BFloat16 (BF16) nativa.

Para tornar o Gemma 3 ainda mais acessível, estamos anunciando novas versões otimizadas com o treinamento com reconhecimento de quantização (QAT), que reduz drasticamente os requisitos de memória, sem perder em qualidade. Isso permite a execução de modelos poderosos, como o Gemma 3 27B, localmente em GPUs de consumidor final, como a NVIDIA RTX 3090.

Este gráfico classifica os modelos de IA pelas pontuações do Chatbot Arena Elo; pontuações mais altas (os números superiores) indicam maior preferência dos usuários. Os pontos mostram os requisitos estimados da GPU NVIDIA H100.

Como entender o desempenho, a precisão e a quantização

O gráfico acima mostra o desempenho (pontuação Elo) de modelos de linguagem grandes lançados recentemente. As barras mais altas significam desempenho melhor em comparações, conforme avaliação por seres humanos visualizando respostas de dois modelos anônimos, lado a lado. Abaixo de cada barra, indicamos o número estimado de GPUs NVIDIA H100 necessárias para executar esse modelo usando o tipo de dados BF16.

Por que usar o BFloat16 para esta comparação? O BF16 é um formato numérico comum usado durante a inferência de muitos modelos grandes. Isso significa que os parâmetros dos modelos são representados com 16 bits de precisão. O uso do BF16 para todos os modelos nos ajuda a fazer uma comparação direta de modelos em uma configuração de inferência comum. Com isso, podemos comparar os recursos inerentes dos próprios modelos, removendo variáveis como diferenças de hardware ou técnicas de otimização, como a quantização, que discutiremos a seguir.

É importante notar que, embora este gráfico use o BF16 para uma comparação justa, a implantação de modelos muito maiores geralmente envolve o uso de formatos de baixa precisão, como o FP8, como uma necessidade prática para reduzir os imensos requisitos de hardware (como o número de GPUs), potencialmente aceitando uma perda no desempenho para viabilidade.

A necessidade de acessibilidade

Embora o desempenho máximo em hardware de ponta seja ótimo para pesquisas e implantações em nuvem, nós ouvimos os seus desejos: você quer aproveitar o poder do Gemma 3 no hardware que já possui. Estamos empenhados em tornar a IA avançada acessível, e isso significa possibilitar um desempenho eficiente nas GPUs de consumidor final encontradas em computadores, laptops e até telefones.

Desempenho e acessibilidade combinados com o treinamento com reconhecimento de quantização no Gemma 3

É aqui que a quantização entra em ação. Nos modelos de IA, a quantização reduz a precisão dos números (os parâmetros do modelo) que ela armazena e usa para calcular as respostas. Pense na quantização como a compactação de uma imagem por meio da redução do número de cores que ela usa. Em vez de usar 16 bits por número (BFloat16), podemos usar menos bits, por exemplo, 8 (int8) ou até mesmo 4 (int4).

O uso de int4 significa que cada número é representado usando apenas 4 bits, uma redução de quatro vezes no tamanho dos dados em comparação com o BF16. A quantização muitas vezes pode levar à degradação do desempenho, por isso estamos empolgados com o lançamento de modelos Gemma 3 que são robustos para a quantização. Lançamos diversas variantes quantizadas para cada modelo Gemma 3 a fim de permitir a inferência com o seu mecanismo de inferência favorito, como o Q4_0 (um formato de quantização comum) para Ollama, llama.cpp e MLX.

Como mantemos a qualidade? Usando o QAT. Em vez de apenas quantizar o modelo depois que ele está totalmente treinado, o QAT incorpora o processo de quantização durante o treinamento. O QAT simula operações de baixa precisão durante o treinamento para permitir a quantização com menos degradação posterior para modelos menores e mais rápidos, sem perder em acurácia. Fomos ainda mais fundo e aplicamos o QAT a aproximadamente 5.000 etapas usando probabilidades do ponto de verificação não quantizado como metas. Reduzimos a queda de perplexidade em 54% (usando a avaliação de perplexidade do llama.cpp) ao quantizar até Q4_0.

Veja a diferença: economia massiva de VRAM

O impacto da quantização int4 é dramático. Veja a VRAM (memória de GPU) necessária apenas para carregar os pesos do modelo:

Gemma 3 27B: cai de 54 GB (BF16) para apenas 14,1 GB (int4).

Gemma 3 12B: encolhe de 24 GB (BF16) para apenas 6,6 GB (int4).

Gemma 3 4B: cai de 8 GB (BF16) para apenas 2,6 GB (int4).

Gemma 3 1B: passa de 2 GB (BF16) para apenas 0,5 GB (int4).

Comparison chart of model weights showing VRAM required to load

^{Observação:} ^{esta imagem representa apenas a VRAM necessária para carregar os pesos do modelo. A execução do modelo também requer VRAM adicional para o cache KV, que armazena informações sobre a conversa em andamento e depende da duração do contexto.}

Execute o Gemma 3 em seu dispositivo

Essas reduções drásticas habilitam a capacidade de executar modelos maiores e poderosos em hardware de consumidor final amplamente disponível:

Gemma 3 27B (int4): agora cabe confortavelmente em um único computador com NVIDIA RTX 3090 (24 GB de VRAM) ou uma placa semelhante, permitindo a execução local de nossa maior variante do Gemma 3.

Gemma 3 12B (int4): é executado com eficiência em GPUs de laptops, como a NVIDIA RTX 4060 Laptop GPU (8 GB de VRAM), trazendo recursos avançados de IA para máquinas portáteis.

Modelos menores (4B, 1B): oferecem acessibilidade ainda maior para sistemas com recursos mais restritos, incluindo telefones e torradeiras (se você tiver uma boa).

Integração simples com ferramentas populares

Queremos que você possa usar esses modelos facilmente dentro do seu fluxo de trabalho preferido. Nossos modelos QAT int4 e Q4_0 não quantizados oficiais estão disponíveis na Hugging Face e no Kaggle. Fizemos uma parceria com ferramentas para desenvolvedores populares que permitem experimentar facilmente os pontos de verificação quantizados baseados em QAT:

Ollama: entre em ação rapidamente. Todos os nossos modelos Gemma 3 QAT têm suporte nativo a partir de hoje com um comando simples.

LM Studio: faça o download e execute facilmente os modelos Gemma 3 QAT em computadores por meio da interface fácil de usar.

MLX: use o MLX para inferência eficiente e otimizada de modelos Gemma 3 QAT em Apple Silicon.

Gemma.cpp: use nossa implementação C++ dedicada para inferência altamente eficiente diretamente na CPU.

llama.cpp: faça a integração facilmente a fluxos de trabalho existentes com o suporte nativo a nossos modelos QAT formatados em GGUF.

Mais quantizações no Gemmaverse

Nossos modelos com treinamento com reconhecimento de quantização (QAT) oficiais fornecem uma linha de base de alta qualidade, mas o vibrante Gemmaverse oferece muitas alternativas. Elas costumam usar a quantização pós-treinamento (PTQ, na sigla em inglês), com contribuições importantes de participantes como Bartowski Unsloth e GGML prontamente disponíveis na Hugging Face. Explorar essas opções da comunidade fornece um espectro mais amplo de compensações entre tamanho, velocidade e qualidade para atender a necessidades específicas.

Comece a usar hoje mesmo

Trazer o desempenho da IA de última geração para um hardware acessível é um passo fundamental na democratização do desenvolvimento da IA. Com os modelos Gemma 3, otimizados por meio do QAT, você já pode aproveitar recursos de ponta em seu próprio computador ou laptop.

Explore os modelos quantizados e comece a criar: