Model QAT Gemma 3: Menghadirkan AI tercanggih ke GPU konsumen

18 APRIL 2025

Edouard YVINEC Research Scientist

Phil Culliton ML Engineer

Bulan lalu, kami meluncurkan Gemma 3, generasi terbaru model terbuka kami. Menghadirkan performa tercanggih, Gemma 3 dengan cepat memantapkan dirinya sebagai model terdepan yang mampu berjalan pada satu GPU kelas atas seperti NVIDIA H100 dengan menggunakan BFloat16 (BF16) native yang presisi.

Untuk membuat Gemma 3 semakin mudah diakses, kami mengumumkan versi baru yang dioptimalkan dengan Quantization-Aware Training (QAT) yang secara dramatis mengurangi kebutuhan memori sekaligus mempertahankan kualitas tinggi. Ini memungkinkan Anda menjalankan model yang kuat seperti Gemma 3 27B secara lokal pada GPU kelas konsumen, misalnya NVIDIA RTX 3090.

Chart ini memeringkatkan model AI berdasarkan skor Elo Chatbot Arena; skor yang lebih tinggi (angka teratas) menunjukkan preferensi pengguna yang lebih besar. Titik-titik menunjukkan perkiraan kebutuhan GPU NVIDIA H100.

Memahami performa, presisi, dan kuantisasi

Chart di atas menunjukkan performa (skor Elo) dari model bahasa besar yang baru saja dirilis. Batang yang lebih tinggi berarti performa yang lebih baik saat dibandingkan sebagaimana dinilai oleh manusia yang melihat respons berdampingan dari dua model anonim. Di bawah setiap batang, kami menunjukkan perkiraan jumlah GPU NVIDIA H100 yang dibutuhkan untuk menjalankan model tersebut menggunakan tipe data BF16.

Mengapa menggunakan BFloat16 untuk perbandingan ini? BF16 adalah format numerik umum yang digunakan selama inferensi banyak model besar. Ini berarti bahwa parameter model direpresentasikan dengan presisi 16 bit. Menggunakan BF16 untuk semua model membantu kami membuat perbandingan model yang setara dengan model lainnya dalam pengaturan inferensi umum. Ini memungkinkan kami membandingkan kemampuan yang melekat pada model itu sendiri, menghilangkan variabel seperti hardware yang berbeda atau teknik pengoptimalan seperti kuantisasi, yang akan kita bahas berikutnya.

Perlu dicatat bahwa meskipun chart ini menggunakan BF16 untuk perbandingan setara, tetapi penerapan model terbesar sering kali melibatkan penggunaan format dengan presisi yang lebih rendah seperti FP8 sebagai tuntutan praktis untuk mengurangi kebutuhan hardware yang sangat besar (seperti jumlah GPU), sehingga berpotensi menerima kompromi performa untuk kelayakan.

Kebutuhan akan Aksesibilitas

Meskipun performa terbaik pada hardware kelas atas sangat bagus untuk deployment cloud dan penelitian, kami mendengar Anda dengan sangat jelas: Anda menginginkan kekuatan Gemma 3 pada hardware yang sudah Anda miliki. Kami berkomitmen untuk membuat AI kuat yang dapat diakses, dan itu berarti memungkinkan performa yang efisien pada GPU kelas konsumen yang ditemukan di desktop, laptop, dan bahkan ponsel.

Performa Bertemu Aksesibilitas dengan Quantization-Aware Training di Gemma 3

Di sinilah kuantisasi berperan. Dalam model AI, kuantisasi mengurangi presisi angka (parameter model) yang disimpan dan digunakan untuk menghitung respons. Bayangkan kuantisasi seperti mengompresi gambar dengan mengurangi jumlah warna yang digunakan. Alih-alih menggunakan 16 bit per angka (BFloat16), kita dapat menggunakan bit yang lebih sedikit, seperti 8 (int8) atau bahkan 4 (int4).

Menggunakan int4 berarti setiap angka direpresentasikan hanya dengan 4 bit – pengurangan ukuran data sebesar 4x dibandingkan dengan BF16. Kuantisasi sering kali menyebabkan penurunan performa, jadi kami sangat senang dapat merilis model Gemma 3 yang andal untuk kuantisasi. Kami merilis beberapa varian yang dikuantisasi untuk setiap model Gemma 3 yang memungkinkan inferensi dengan mesin inferensi favorit Anda, seperti Q4_0 (format kuantisasi umum) untuk Ollama, llama.cpp, dan MLX.

Bagaimana kami menjaga kualitas? Kami menggunakan QAT. Alih-alih hanya melakukan kuantisasi model setelah dilatih sepenuhnya, QAT menggabungkan proses kuantisasi selama pelatihan. QAT menyimulasikan operasi presisi rendah selama pelatihan untuk memungkinkan kuantisasi dengan degradasi yang lebih kecil setelahnya untuk model yang lebih kecil dan cepat sekaligus mempertahankan akurasi. Lebih dalam lagi, kami menerapkan QAT pada ~5.000 langkah dengan menggunakan probabilitas dari titik pemeriksaan yang tidak dikuantisasi sebagai target. Kami mengurangi penurunan kerancuan sebesar 54% (menggunakan evaluasi kerancuan llama.cpp) ketika mengkuantisasi hingga Q4_0.

Lihat Perbedaannya: Penghematan VRAM yang Sangat Besar

Dampak dari kuantisasi int4 sangatlah dramatis. Lihatlah VRAM (memori GPU) yang diperlukan hanya untuk memuat bobot model:

Gemma 3 27B: Turun dari 54 GB (BF16) menjadi hanya 14,1 GB (int4)

Gemma 3 12B: Menyusut dari 24 GB (BF16) menjadi hanya 6,6 GB (int4)

Gemma 3 4B: Berkurang dari 8 GB (BF16) menjadi hanya 2,6 GB (int4)

Gemma 3 1B: Turun dari 2 GB (BF16) menjadi ukuran yang sangat kecil 0,5 GB (int4)

Comparison chart of model weights showing VRAM required to load

^Catatan: ^{Gambar ini hanya menunjukkan VRAM yang dibutuhkan untuk memuat bobot model. Menjalankan model juga membutuhkan VRAM tambahan untuk cache KV, yang menyimpan informasi tentang percakapan yang sedang berlangsung dan bergantung pada panjang konteks}

Menjalankan Gemma 3 di Perangkat Anda

Pengurangan dramatis ini membuka kemampuan untuk menjalankan model yang lebih besar dan bertenaga pada hardware konsumen yang tersedia secara luas:

Gemma 3 27B (int4): Kini dapat digunakan dengan nyaman pada satu desktop NVIDIA RTX 3090 (VRAM 24GB) atau kartu serupa, sehingga Anda dapat menjalankan varian Gemma 3 terbesar kami secara lokal.

Gemma 3 12B (int4): Berjalan secara efisien pada GPU laptop seperti GPU Laptop NVIDIA RTX 4060 (VRAM 8GB), menghadirkan kemampuan AI yang kuat pada mesin portabel.

Model yang Lebih Kecil (4B, 1B): Menawarkan aksesibilitas yang lebih besar untuk sistem dengan sumber daya yang lebih terbatas, termasuk ponsel dan pemanggang roti (jika Anda memiliki yang bagus).

Integrasi Mudah dengan Alat Populer

Kami ingin Anda dapat menggunakan model-model ini secara mudah dalam alur kerja favorit Anda. Model QAT tak terkuantisasi int4 dan Q4_0 resmi kami tersedia di Hugging Face dan Kaggle. Kami bermitra dengan alat developer populer yang memungkinkan Anda mencoba titik pemeriksaan terkuantisasi berbasis QAT dengan lancar:

Ollama: Berjalan dengan cepat – semua model QAT Gemma 3 kami didukung secara native mulai hari ini dengan perintah sederhana.

LM Studio: Download dan jalankan model QAT Gemma 3 secara mudah di desktop Anda melalui antarmuka yang mudah digunakan.

MLX: Manfaatkan MLX untuk inferensi model QAT Gemma 3 yang efisien dan dioptimalkan pada Apple Silicon.

Gemma.cpp: Gunakan implementasi C++ khusus kami untuk inferensi yang sangat efisien secara langsung di CPU.

llama.cpp: Integrasikan dengan mudah ke dalam alur kerja saat ini berkat dukungan native untuk model QAT berformat GGUF kami.

Lebih Banyak Kuantisasi di Gemmaverse

Model Quantization Aware Trained (QAT) resmi kami memberikan dasar berkualitas tinggi, tetapi Gemmaverse yang dinamis menawarkan banyak alternatif. Model ini sering kali menggunakan Post-Training Quantization (PTQ), dengan kontribusi yang signifikan dari anggota, seperti Bartowski, Unsloth, dan GGML yang tersedia di Hugging Face. Menjelajahi opsi komunitas ini memberikan spektrum yang lebih luas terkait kompromi ukuran, kecepatan, dan kualitas untuk menyesuaikan dengan kebutuhan khusus.

Mulai Sekarang

Menghadirkan performa AI termutakhir ke hardware yang dapat diakses adalah langkah penting dalam mendemokratisasi pengembangan AI. Dengan model Gemma 3, yang dioptimalkan melalui QAT, kini Anda bisa memanfaatkan kemampuan tercanggih di desktop atau laptop Anda.

Jelajahi model yang dikuantisasi dan mulailah membangun: