Memperkenalkan Gemma 3n: Panduan developer

26 JUNI 2025

Omar Sanseviero Staff Developer Relations Engineer

Ian Ballantyne Senior Developer Relations Engineer Google DeepMind

Model Gemma pertama diluncurkan awal tahun lalu dan sejak saat itu telah berkembang menjadi ekosistem Gemmaverse dengan lebih dari 160 juta download kolektif. Ekosistem ini mencakup rangkaian lebih dari selusin model khusus untuk segala hal, mulai dari pengamanan hingga aplikasi medis, dan yang paling menginspirasi, inovasi tak terhitung dari komunitas. Dari inovator, seperti Roboflow yang membangun computer vision perusahaan, hingga Institute of Science Tokyo yang menciptakan varian Gemma Jepang dengan kemampuan tinggi, karya Anda telah menunjukkan kepada kami jalan ke depan.

Melanjutkan momentum yang luar biasa ini, kami sangat senang bisa mengumumkan perilisan penuh Gemma 3n. Meskipun pratinjau bulan lalu memberikan gambaran sekilas, hari ini kami membuka kekuatan penuh dari arsitektur yang mengutamakan seluler ini. Gemma 3n dirancang untuk komunitas developer yang telah membantu membentuk Gemma. Ia didukung dengan alat favorit Anda termasuk Hugging Face Transformers, llama.cpp, Google AI Edge, Ollama, MLX, dan banyak lagi, memungkinkan Anda menyempurnakan dan menerapkan untuk aplikasi di perangkat tertentu dengan mudah. Postingan ini adalah pendalaman dari sisi developer: kami akan menjelajahi beberapa inovasi di balik Gemma 3n, berbagi hasil tolok ukur baru, dan menunjukkan kepada Anda cara untuk mulai membangun hari ini.

Apa yang baru di Gemma 3n?

Gemma 3n merepresentasikan kemajuan besar untuk AI di perangkat, menghadirkan kemampuan multimodal yang kuat ke perangkat edge dengan performa yang sebelumnya hanya terlihat pada model frontier berbasis cloud tahun lalu.

Link to Youtube Video (visible only when JS is disabled)

Multimodal secara desain: Gemma 3n secara native mendukung input gambar, audio, video, dan teks serta output teks.

Dioptimalkan untuk penggunaan di perangkat: Dirancang dengan fokus pada efisiensi, model Gemma 3n tersedia dalam dua ukuran berdasarkan parameter efektif: E2B dan E4B. Meskipun jumlah parameter mentahnya masing-masing adalah 5B dan 8B, inovasi arsitektur memungkinkan mereka untuk berjalan dengan jejak memori yang setara dengan model 2B dan 4B tradisional, beroperasi hanya dengan 2GB (E2B) dan 3GB (E4B) memori.

Arsitektur inovatif: Pada intinya, Gemma 3n menampilkan komponen baru seperti arsitektur MatFormer untuk fleksibilitas komputasi, Per Layer Embeddings (PLE) untuk efisiensi memori, LAuReL dan AltUp untuk efisiensi arsitektur, serta encoder vision berbasis audio dan MobileNet-v5 baru yang dioptimalkan untuk kasus penggunaan pada perangkat.

Kualitas yang ditingkatkan: Gemma 3n memberikan peningkatan kualitas dalam multibahasa (mendukung 140 bahasa untuk teks dan pemahaman multimodal dari 35 bahasa), matematika, coding, dan penalaran. Versi E4B meraih skor LMArena lebih dari 1300, menjadikannya model pertama di bawah 10 miliar parameter yang mencapai tolok ukur ini.

LMArena Text Arena Elo Score rankings for Gemini 1.5 Pro, Gemma 3n E4B llama 4 Maverick 17B 128E GPT 4.1-nano and Phi-4

Mencapai lompatan dalam performa di perangkat ini membutuhkan pemikiran ulang model dari dasar. Fondasinya adalah arsitektur unik Gemma 3n yang mengutamakan seluler, dan semuanya dimulai dengan MatFormer.

MatFormer: Satu model, banyak ukuran

Inti dari Gemma 3n adalah arsitektur MatFormer (🪆Matryoshka Transformer), nested transformer baru yang dibangun untuk inferensi elastis. Analoginya seperti boneka Matryoshka: model yang lebih besar berisi versi dirinya dengan ukuran lebih kecil yang berfungsi penuh. Pendekatan ini memperluas konsep Matryoshka Representation Learning dari sekadar penyematan ke semua komponen transformer.

Selama pelatihan MatFormer untuk model parameter efektif 4B (E4B), sub-model parameter efektif 2B (E2B) secara simultan dioptimalkan di dalamnya, seperti yang ditunjukkan pada gambar di atas. Hal ini memberikan developer dua kemampuan yang kuat dan kasus penggunaan saat ini:

1: Model yang sudah diekstraksi: Anda bisa langsung mendownload dan menggunakan model E4B utama untuk kemampuan tertinggi, atau sub-model E2B standalone yang sudah kami ekstraksi untuk Anda, yang menawarkan inferensi hingga 2x lebih cepat.

2: Ukuran khusus dengan Mix-n-Match: Untuk kontrol yang lebih granular yang disesuaikan dengan batasan hardware tertentu, Anda bisa menciptakan spektrum model berukuran khusus antara E2B dan E4B menggunakan metode yang kami sebut Mix-n-Match. Teknik ini memungkinkan Anda untuk secara tepat mengiris parameter model E4B, terutama dengan menyesuaikan dimensi tersembunyi jaringan feed forward per lapisan (dari 8192 hingga 16384) dan secara selektif melewatkan beberapa lapisan. Kami merilis MatFormer Lab, sebuah alat yang menunjukkan cara mengambil model optimal ini, yang diidentifikasi dengan mengevaluasi berbagai setelan pada tolok ukur seperti MMLU.

Skor MMLU untuk checkpoint Gemma 3n yang telah dilatih sebelumnya pada berbagai ukuran model (menggunakan Mix-n-Match)

Ke depannya, arsitektur MatFormer juga membuka jalan untuk eksekusi elastis. Meskipun bukan bagian dari implementasi yang diluncurkan hari ini, kemampuan ini memungkinkan satu model E4B yang diterapkan untuk beralih secara dinamis antara jalur inferensi E4B dan E2B dengan cepat, memungkinkan pengoptimalan performa dan penggunaan memori secara real-time berdasarkan tugas dan muatan perangkat saat ini.

Per-Layer Embeddings (PLE): Membuka lebih banyak efisiensi memori

Model Gemma 3n menggabungkan Per-Layer Embeddings (PLE). Inovasi ini dirancang untuk deployment di perangkat karena secara dramatis meningkatkan kualitas model tanpa meningkatkan jejak memori berkecepatan tinggi yang diperlukan pada akselerator (GPU/TPU) perangkat Anda.

Meskipun model Gemma 3n E2B dan E4B memiliki jumlah parameter total 5B dan 8B, PLE memungkinkan sebagian besar parameter ini (sematan yang terkait dengan setiap lapisan) dimuat dan dikomputasi secara efisien pada CPU. Ini berarti hanya bobot transformer inti (sekitar 2B untuk E2B dan 4B untuk E4B) yang perlu ditempatkan di memori akselerator (VRAM) yang biasanya lebih terbatas.

Dengan Per-Layer Embeddings, Anda bisa menggunakan Gemma 3n E2B meskipun hanya memiliki ~2B parameter yang dimuat dalam akselerator Anda.

Memproses input panjang, seperti urutan yang berasal dari streaming video dan audio, sangatlah penting untuk banyak aplikasi multimodal lanjutan di perangkat. Gemma 3n memperkenalkan KV Cache Sharing, sebuah fitur yang dirancang untuk secara signifikan mempercepat waktu ke token pertama untuk aplikasi respons streaming.

KV Cache Sharing mengoptimalkan cara model menangani tahap pemrosesan input awal (sering disebut tahap “prefill”). Kunci dan nilai lapisan tengah dari perhatian lokal dan global secara langsung dibagikan ke semua lapisan teratas, memberikan peningkatan 2x pada performa prefill dibandingkan Gemma 3 4B. Ini berarti model dapat menyerap dan memahami urutan prompt yang panjang dengan lebih cepat daripada sebelumnya.

Pemahaman audio: Memperkenalkan speech to text dan terjemahan

Gemma 3n menggunakan enkoder audio canggih yang berbasis Universal Speech Model (USM). Enkoder menghasilkan token untuk setiap 160ms audio (sekitar 6 token per detik), yang kemudian diintegrasikan sebagai input ke model bahasa, memberikan representasi granular konteks suara.

Kemampuan audio terintegrasi ini membuka fitur utama untuk pengembangan di perangkat, termasuk:

Automatic Speech Recognition (ASR): Mengaktifkan transkripsi speech-to-text berkualitas tinggi secara langsung di perangkat.

Automatic Speech Translation (AST): Menerjemahkan bahasa lisan ke dalam teks dalam bahasa lain.

Kami mengamati hasil AST yang sangat kuat untuk terjemahan antara bahasa Inggris dan Spanyol, Prancis, Italia, dan Portugis, yang menawarkan potensi besar bagi developer yang menargetkan aplikasi dalam bahasa-bahasa tersebut. Untuk tugas seperti penerjemahan ucapan, memanfaatkan prompting Chain-of-Thought dapat meningkatkan hasil secara signifikan. Berikut adalah contohnya:

<bos><start_of_turn>user
Transcribe the following speech segment in Spanish, then translate it into English: 
<start_of_audio><end_of_turn>
<start_of_turn>model

Plain text

Pada waktu peluncuran, enkoder Gemma 3n diimplementasikan untuk memproses klip audio hingga 30 detik. Namun, ini bukan batasan fundamental. Enkoder audio yang mendasarinya adalah enkoder streaming, yang mampu memproses audio yang panjangnya berubah-ubah dengan pelatihan audio tambahan berformat panjang. Implementasi lanjutan akan membuka aplikasi streaming panjang dengan latensi rendah.

MobileNet-V5: Enkoder visi baru tercanggih

Selain kemampuan audio terintegrasi, Gemma 3n memiliki fitur enkoder visi baru yang sangat efisien, MobileNet-V5-300M, memberikan performa tercanggih untuk tugas multimodal di perangkat edge.

Didesain untuk fleksibilitas dan kekuatan pada hardware yang terbatas, MobileNet-V5 memberikan developer:

Beberapa resolusi input: Secara native mendukung resolusi 256x256, 512x512, dan 768x768 piksel, memungkinkan Anda menyeimbangkan performa dan detail untuk aplikasi khusus Anda.

Pemahaman visual yang luas: Dilatih bersama pada set data multimodal yang ekstensif, ia unggul dalam berbagai tugas pemahaman gambar dan video.

Throughput tinggi: Memproses hingga 60 frame per detik di Google Pixel, memungkinkan analisis video di perangkat secara real-time dan pengalaman interaktif.

Level performa ini dicapai dengan beberapa inovasi arsitektur, termasuk:

Fondasi lanjutan blok MobileNet-V4 (termasuk Universal Inverted Bottlenecks dan Mobile MQA).

Arsitektur yang diskalakan secara signifikan, menampilkan model piramida hibrida mendalam yang 10x lebih besar dari varian MobileNet-V4 terbesar.

Adaptor VLM Multi-Scale Fusion baru yang meningkatkan kualitas token untuk akurasi dan efisiensi yang lebih baik.

Memanfaatkan desain arsitektur baru dan teknik distilasi lanjutan, MobileNet-V5-300M secara substansial mengungguli SoViT dasar di Gemma 3 (dilatih dengan SigLip, tanpa distilasi). Di TPU Google Pixel Edge, ia memberikan kecepatan 13x dengan kuantisasi (6,5x tanpa kuantisasi), membutuhkan parameter 46% lebih sedikit, dan memiliki jejak memori 4x lebih kecil, sekaligus memberikan akurasi yang jauh lebih tinggi pada tugas visi-bahasa

Kami sangat antusias untuk membagikan lebih banyak informasi tentang pekerjaan di balik model ini. Nantikan laporan teknis MobileNet-V5 mendatang, yang akan membahas lebih dalam tentang arsitektur model, strategi penskalaan data, dan teknik distilasi lanjutan.

Membangun dengan komunitas

Membuat Gemma 3n dapat diakses sejak hari pertama telah menjadi prioritas kami. Kami bangga bisa bermitra dengan banyak developer open source yang luar biasa untuk memastikan dukungan yang luas di seluruh alat dan platform populer, termasuk kontribusi dari tim di balik AMD, Axolotl, Docker, Hugging Face, llama.cpp, LMStudio, MLX, NVIDIA, Ollama, RedHat, SGLang, Unsloth, dan vLLM.

Namun ekosistem ini hanyalah permulaan. Kekuatan sebenarnya teknologi ini terletak pada aplikasi yang akan Anda buat dengannya. Itulah mengapa kami meluncurkan Gemma 3n Impact Challenge. Misi Anda: menggunakan kemampuan Gemma 3n yang unik di perangkat, offline, dan multimodal untuk membangun produk demi dunia yang lebih baik. Dengan hadiah sebesar $150.000, kami mencari cerita video yang menarik dan demo yang punya faktor “wow” yang menunjukkan dampak di dunia nyata. Bergabunglah dengan tantangan ini dan bantu membangun masa depan yang lebih baik.

Memulai Gemma 3n hari ini

Siap menjelajahi potensi Gemma 3n hari ini? Begini caranya:

Bereksperimen secara langsung: Gunakan Google AI Studio untuk mencoba Gemma 3n hanya dengan beberapa klik. Model Gemma juga bisa diterapkan secara langsung ke Cloud Run dari AI Studio

Download model: Temukan bobot model pada Hugging Face dan Kaggle.

Pelajari & integrasikan: Pelajari secara mendalam dokumentasi komprehensif kami untuk mengintegrasikan Gemma ke dalam project Anda dengan cepat atau mulai dengan panduan inferensi dan penyempurnaan kami.

Bangun dengan alat AI di perangkat favorit Anda: Google AI Edge Gallery/LiteRT-LLM, Ollama, MLX, llama.cpp, Docker, transformers.js, dan lainnya.

Gunakan alat pengembangan favorit Anda: Manfaatkan alat dan framework kesukaan Anda, termasuk Hugging Face Transformers dan TRL, NVIDIA NeMo Framework, Unsloth, dan LMStudio.

Terapkan dengan cara Anda: Gemma 3n menawarkan beberapa opsi deployment, termasuk Google GenAI API, Vertex AI, SGLang, vLLM, dan NVIDIA API Catalog.