Memperkenalkan Gemma 3 270M: Model rapat untuk AI yang sangat efisien

14 AGU 2025

Olivier Lacombe Group Product Manager Google DeepMind

Kathleen Kenealy Research Engineer

Kat Black

Ravin Kumar

Francesco Visin

Jiageng Zhang

Beberapa bulan terakhir merupakan masa yang menggembirakan bagi keluarga model terbuka Gemma. Kami memperkenalkan Gemma 3 dan Gemma 3 QAT, yang menghadirkan performa mutakhir untuk akselerator cloud dan desktop tunggal. Kemudian, kami mengumumkan rilis lengkap Gemma 3n, sebuah arsitektur yang mengutamakan seluler, menghadirkan AI multimodal real-time yang tangguh langsung ke perangkat edge. Sasaran kami adalah menyediakan perangkat yang bermanfaat bagi para developer untuk membangun dengan AI, dan kami terus terkesima oleh Gemmaverse yang dinamis yang Anda bantu ciptakan, dan merayakan bersama saat jumlah download melampaui 200 juta minggu lalu.

Hari ini, kami menambahkan alat baru yang sangat terspesialisasi ke perangkat Gemma 3: Gemma 3 270M, model parameter rapat dengan 270 juta parameter yang dirancang dari awal untuk penyempurnaan tugas spesifik dengan kemampuan mengikuti petunjuk dan menyusun teks yang kuat dan sudah terlatih.

Gemma 3 270M menghadirkan kemampuan mengikuti instruksi yang kuat pada model berukuran kecil. Sebagaimana ditunjukkan oleh tolok ukur IFEval (yang menguji kemampuan model untuk mengikuti petunjuk yang dapat diverifikasi), model ini menetapkan level performa baru untuk ukurannya, menjadikan kapabilitas AI yang canggih lebih mudah diakses untuk aplikasi di perangkat dan penelitian.

Kemampuan inti Gemma 3 270M

Arsitektur yang rapat dan mumpuni: Model baru kami memiliki total 270 juta parameter: 170 juta parameter sematan karena ukuran kosakata yang besar dan 100 juta untuk blok transformer kami. Berkat kosakata yang luas, yaitu 256 ribu token, model ini dapat menangani token yang spesifik dan langka, menjadikannya model dasar yang kuat untuk disempurnakan lebih lanjut dalam domain dan bahasa pemrograman tertentu.

Efisiensi energi yang ekstrem: Keunggulan utama Gemma 3 270M adalah konsumsi dayanya yang rendah. Pengujian internal pada SoC Pixel 9 Pro menunjukkan model terkuantisasi INT4 hanya menggunakan 0,75% daya baterai untuk 25 percakapan, menjadikannya model Gemma kami yang paling hemat daya.

Mengikuti instruksi: Model yang telah disesuaikan dengan instruksi dirilis bersama titik pemeriksaan yang telah dilatih sebelumnya. Meskipun model ini tidak dirancang untuk kasus penggunaan percakapan yang kompleks, model ini merupakan model yang kuat yang langsung mengikuti petunjuk umum.

Kuantisasi siap produksi: Titik pemeriksaan Terlatih Sadar Kuantisasi / Quantization-Aware Trained (QAT) tersedia, memungkinkan Anda menjalankan model pada presisi INT4 dengan penurunan performa minimal, yang penting untuk penerapan pada perangkat dengan resource terbatas.

Alat yang tepat untuk tugas ini

Dalam dunia teknik, kesuksesan ditentukan oleh efisiensi, bukan hanya kekuatan fisik. Anda tidak akan menggunakan palu godam untuk menggantung bingkai foto. Prinsip yang sama berlaku untuk membangun dengan AI.

Gemma 3 270M mewujudkan filosofi "alat yang tepat untuk tugas ini". Ini adalah model fondasi berkualitas tinggi yang langsung mengikuti instruksi, dan kekuatan sejatinya terungkap melalui penyempurnaan. Setelah terspesialisasi, Gemma 3 270M dapat menjalankan tugas-tugas seperti klasifikasi teks dan ekstraksi data dengan akurasi, kecepatan, dan efektivitas biaya yang luar biasa. Dengan memulai dengan model yang rapat dan mumpuni, Anda dapat membangun sistem produksi yang ramping, cepat, dan jauh lebih murah untuk dioperasikan.

Cetak biru kesuksesan di dunia nyata

Kekuatan pendekatan ini telah menghasilkan hasil yang luar biasa di dunia nyata. Contoh sempurnanya adalah karya yang dilakukan oleh Adaptive ML bersama SK Telecom. Menghadapi tantangan moderasi isi multibahasa yang bernuansa, mereka memilih untuk berspesialisasi. Alih-alih menggunakan model tujuan umum yang masif, Adaptive ML menyempurnakan model Gemma 3 4B. Hasilnya menakjubkan: model Gemma yang terspesialisasi tidak hanya memenuhi, tetapi juga melampaui performa model proprietary yang jauh lebih besar pada tugas spesifiknya.

Gemma 3 270M dirancang agar para developer dapat menerapkan pendekatan ini lebih jauh, menghasilkan efisiensi yang lebih tinggi untuk tugas-tugas yang terdefinisi dengan baik. Ini adalah titik awal yang sempurna untuk menciptakan perangkat model kecil dan terspesialisasi, yang masing-masing ahli dalam tugasnya sendiri.

Namun, kekuatan spesialisasi ini tidak hanya untuk tugas-tugas perusahaan; tetapi juga memungkinkan penerapan kreatif yang canggih. Misalnya, lihat aplikasi web Bedtime Story Generator ini:

Link to Youtube Video (visible only when JS is disabled)

Gemma 3 270M digunakan untuk menjalankan aplikasi web Bedtime Story Generator menggunakan Transformers.js. Ukuran dan performa model ini membuatnya cocok untuk tugas-tugas kreatif offline berbasis web. (Kredit: Joshua (@xenovacom di X) dari tim Hugging Face)

Kapan memilih Gemma 3 270M

Gemma 3 270M mewarisi arsitektur canggih dan pra-pelatihan yang tangguh dari koleksi Gemma 3, menyediakan fondasi yang kokoh untuk aplikasi khusus Anda.

Inilah saatnya pilihan yang tepat:

Anda memiliki tugas bervolume tinggi dan terdefinisi dengan baik. Ideal untuk fungsi seperti analisis sentimen, ekstraksi entity, pemilihan rute kueri, pemrosesan teks tidak terstruktur menjadi terstruktur, penulisan kreatif, dan pemeriksaan kepatuhan.

Anda perlu memanfaatkan setiap milidetik dan mikrosen secara maksimal. Kurangi atau hilangkan secara drastis biaya inferensi dalam produksi dan berikan respons yang lebih cepat kepada pengguna. Model 270M yang telah disempurnakan dapat berjalan pada infrastruktur yang ringan dan murah, atau langsung di perangkat.

Anda perlu melakukan iterasi dan menerapkan dengan cepat. Ukuran Gemma 3 270M yang kecil memungkinkan eksperimen penyempurnaan yang cepat, membantu Anda menemukan konfigurasi yang sempurna untuk kasus penggunaan Anda dalam hitungan jam, bukan hari.

Anda perlu memastikan privasi pengguna. Karena model dapat berjalan sepenuhnya di perangkat, Anda dapat membangun aplikasi yang menangani informasi sensitif tanpa pernah mengirim data ke cloud.

Anda menginginkan perangkat model tugas khusus. Bangun dan terapkan beberapa model khusus, yang masing-masing dilatih secara ahli untuk tugas yang berbeda, tanpa menghabiskan anggaran.

Mulai dengan penyempurnaan

Kami ingin menjadikan Gemma 3 270M solusi khusus Anda semudah mungkin. Solusi ini dibangun dengan arsitektur yang sama dengan model Gemma 3 lainnya, dilengkapi urutan langkah dan alat untuk membantu Anda memulai dengan cepat. Anda dapat menemukan panduan kami tentang penyempurnaan penuh menggunakan Gemma 3 270M sebagai bagian dari dokumen Gemma.

Download saja model: Dapatkan model Gemma 3 270M dari Hugging Face, Ollama, Kaggle, LM Studio, atau Docker. Kami merilis model yang sudah dilatih dan disesuaikan dengan petunjuk.

Cobalah model: Cobalah model di Vertex AI atau dengan alat inferensi populer seperti llama.cpp, Gemma.cpp, LiteRT, Keras, dan MLX.

Mulailah penyempurnaan: Gunakan alat favorit, seperti Hugging Face, UnSloth, dan JAX.

Deploy solusi Anda: Setelah disempurnakan, Anda dapat menerapkan model khusus Anda di mana saja, dari lingkungan lokal Anda sendiri sampai Google Cloud Run.

Gemmaverse dibangun di atas ide bahwa inovasi hadir dalam berbagai ukuran. Dengan Gemma 3 270M, kami memberdayakan para developer untuk membangun solusi AI yang lebih smart, lebih cepat, dan lebih efisien. Kami tak sabar untuk melihat model-model khusus yang Anda ciptakan.

diposting di: