Memperkenalkan Gemma 3: Panduan Developer

MAR 12, 2025
Omar Sanseviero Staff Developer Relations Engineer
Philipp Schmid Developer Relations Engineer

Sejak pertama kali diluncurkan, model Gemma telah didownload lebih dari 100 juta kali, dengan komunitas yang menciptakan lebih dari 60.000 variasi untuk semua jenis kasus penggunaan. Kami sangat senang bisa memperkenalkan Gemma 3, versi paling mumpuni dan mutakhir dari rangkaian model terbuka Gemma, yang dibangun berdasarkan kesuksesan rilis Gemma sebelumnya. Kami mendengarkan masukan dari komunitas dan menambahkan fitur-fitur yang paling banyak diminta, seperti konteks yang lebih panjang, multimodalitas, dan masih banyak lagi!


Apa yang baru di Gemma?

Link to Youtube Video (visible only when JS is disabled)

Gemma 3 memperkenalkan multimodalitas, yang mendukung input visi-bahasa dan output teks. Ia menangani jendela konteks hingga 128 ribu token, memahami lebih dari 140 bahasa, dan menawarkan kemampuan matematika, penalaran, dan chat yang lebih baik, termasuk output terstruktur dan panggilan fungsi. Gemma 3 tersedia dalam empat ukuran (1B, 4B, 12B, dan 27B) sebagai model pra-pelatihan, yang bisa disesuaikan untuk domain dan kasus penggunaan Anda sendiri, serta versi yang sudah diatur dengan instruksi untuk tujuan umum.

Comparison chart - Gemma models

Bagaimana Gemma dibangun?

Proses pra-pelatihan dan pasca-pelatihan Gemma dioptimalkan dengan menggunakan kombinasi distilasi, reinforcement learning, dan penggabungan model. Pendekatan ini menghasilkan peningkatan performa dalam matematika, coding, dan mengikuti instruksi. Gemma 3 menggunakan tokenizer baru untuk dukungan multibahasa yang lebih baik untuk lebih dari 140 bahasa dan telah dilatih dengan token 2T untuk 1B, 4T untuk 4B, 12T untuk 12B, dan 14T untuk 27B, di Google TPU menggunakan JAX Framework.

Untuk pasca-pelatihan, Gemma 3 menggunakan 4 komponen:

  • Distilasi dari model instruksi yang lebih besar ke dalam titik pemeriksaan pra-pelatihan Gemma 3.

  • Reinforcement Learning from Human Feedback (RLHF) untuk menyelaraskan prediksi model dengan preferensi manusia.

  • Reinforcement Learning from Machine Feedback (RLMF) untuk meningkatkan penalaran matematika.

  • Reinforcement Learning from Execution Feedback (RLEF) untuk meningkatkan kemampuan coding.

Update ini secara signifikan meningkatkan kemampuan matematika, coding, dan kemampuan mengikuti instruksi model, sehingga menjadikannya model kompak terbuka teratas di LMArena, dengan skor 1338.

Graph showing a comparison of Model performance v. Size

Versi instruksi Gemma 3 menggunakan format dialog yang sama dengan Gemma 2, sehingga Anda tidak perlu memperbarui peralatan Anda untuk mengupdate ke versi terbaru untuk input hanya-teks. Untuk input gambar, Gemma 3 memungkinkan Anda menentukan gambar yang disisipkan di antara teks.


Contoh teks multi-turn

<bos><start_of_turn>user
knock knock<end_of_turn>
<start_of_turn>model
who is there<end_of_turn>
<start_of_turn>user
Gemma<end_of_turn>
<start_of_turn>model
Gemma who?<end_of_turn>

Contoh penyisipan gambar

<bos><start_of_turn>user
Image A: <start_of_image>
Image B: <start_of_image>
 
Label A: water lily
Label B:<end_of_turn>
<start_of_turn>model
Desert rote<end_of_turn>

Multimodalitas

Gemma 3 memiliki encoder visi terintegrasi berdasarkan SigLIP. Model visi Gemma 3, yang tetap dibekukan selama pelatihan, sama di setiap ukurannya (4B, 12B, dan 27B). Berkat hal ini, Gemma bisa menggunakan gambar dan video sebagai input, memungkinkannya melakukan analisis gambar, menjawab pertanyaan tentang gambar, membandingkan gambar, mengidentifikasi objek, dan bahkan menjawab tentang teks di dalam gambar. Meskipun model ini pada awalnya dibuat untuk bekerja dengan gambar 896x896 piksel, algoritme jendela adaptif baru digunakan untuk melakukan segmentasi gambar input, sehingga Gemma 3 dapat bekerja dengan gambar beresolusi tinggi dan gambar yang tidak berbentuk persegi.

Gemma 3 Multimodality example
Input: Saya perlu menghangatkan diri. Tombol apa yang menaikkan suhu?
Gemma 3 multimodality - output example
Berdasarkan gambar, tombol yang kemungkinan besar berfungsi untuk menaikkan suhu adalah 暖房 (Danbou). "暖房" artinya “pemanas” dalam bahasa Jepang. Ini adalah tombol yang perlu Anda tekan untuk mengaktifkan fungsi pemanas pada AC/sistem pengatur suhu. Tombol dengan tanda plus (+) mungkin berfungsi untuk menyesuaikan suhu setelah Anda memilih mode pemanas.

ShieldGemma 2

ShieldGemma 2 adalah pengklasifikasi keamanan gambar 4B yang dibangun di atas Gemma 3. Ia menghasilkan output label di seluruh kategori keamanan utama, memungkinkan moderasi keamanan gambar sintetis (dari model pembuatan gambar) dan gambar natural (yang bisa menjadi filter input dari Model Visi-Bahasa seperti Gemma 3). Pelajari lebih lanjut tentang ShieldGemma 2.


Apa yang sedang Anda bangun?

Kami terus dibuat kagum oleh kecerdasan komunitas Gemma dan pertumbuhan eksplosif Gemmaverse. Dari lab penelitian yang memelopori teknik penyesuaian baru – seperti metode SimPO yang dikembangkan oleh Princeton NLP, yang secara langsung mengoptimalkan preferensi manusia tanpa model referensi; INSAIT yang melatih LLM termutakhir untuk bahasa Bulgaria – hingga developer yang melatih Gemma pada modalitas yang sama sekali baru seperti yang dilakukan Nexa AI dengan OmniAudio. Kami tidak sabar melihat terobosan yang akan Anda capai berikutnya.


Mulai Gemma 3 hari ini

Siap menjelajahi potensi Gemma 3 hari ini? Begini caranya:

  • Bereksperimen secara langsung: Gunakan Google AI Studio untuk mencoba Gemma 3 hanya dengan beberapa klik.

  • Pelajari & integrasikan: Pelajari laporan teknis dan dokumentasi komprehensif kami untuk mengintegrasikan Gemma dengan cepat ke dalam project Anda atau mulai dengan panduan inferensi kami atau coba sesuaikan dengan set data khusus.

  • Terapkan dengan cara Anda: Gemma 3 menawarkan beberapa opsi deployment, termasuk Google GenAI API, Vertex AI, Cloud Run, Cloud TPU, dan Cloud GPU serta integrasi lintas platform, memberikan Anda fleksibilitas untuk memilih yang paling sesuai dengan kasus penggunaan Anda.