Memperkenalkan EmbeddingGemma: Model Terbuka Terbaik di Kelasnya untuk Sematan di Perangkat

4 SEP. 2025
Min Choi Product Manager Google DeepMind
Sahil Dua Lead Research Engineer Google DeepMind

Kami sangat senang bisa memperkenalkan EmbeddingGemma, model sematan terbuka baru yang memberikan performa terbaik di kelasnya untuk ukurannya. Dirancang khusus untuk AI di perangkat, desain 308 juta parameternya yang sangat efisien memungkinkan Anda membangun aplikasi menggunakan teknik seperti Retrieval Augmented Generation (RAG) dan penelusuran semantik yang berjalan secara langsung di hardware Anda. Model ini memberikan sematan pribadi berkualitas tinggi yang dapat digunakan di mana saja, bahkan tanpa koneksi internet.

MTEB Score
EmbeddingGemma sebanding dengan model populer yang hampir dua kali lipat ukurannya.

EmbeddingGemma adalah:

  • Terbaik di kelasnya: Model sematan teks multibahasa terbuka dengan peringkat tertinggi di bawah 500M pada Massive Text Embedding Benchmark (MTEB). Berbasiskan arsitektur Gemma 3, EmbeddingGemma dilatih untuk 100+ bahasa dan cukup kecil untuk dijalankan dengan RAM kurang dari 200MB dengan kuantisasi.

  • Dibuat untuk secara fleksibel bekerja offline: Kecil, cepat, dan efisien, ia menawarkan dimensi output yang dapat disesuaikan (dari 768 hingga 128 melalui representasi Matryoshka) dan jendela konteks token 2K untuk dijalankan di perangkat sehari-hari seperti ponsel, laptop, desktop, dan lainnya. Dirancang untuk bekerja dengan Gemma 3n, bersama-sama mereka membuka kasus penggunaan baru untuk pipeline RAG seluler, penelusuran semantik, dan lainnya.

Link to Youtube Video (visible only when JS is disabled)

Cara EmbeddingGemma mengaktifkan pipeline RAG berorientasi-seluler

EmbeddingGemma menghasilkan sematan, yang merupakan representasi numerik - dalam kasus ini, teks (seperti kalimat dan dokumen) - dengan mentransformasinya menjadi vektor angka untuk merepresentasikan makna dalam ruang berdimensi tinggi. Semakin baik sematannya, semakin baik pula representasi bahasa, dengan segala nuansa dan kompleksitasnya.

Ketika membangun pipeline RAG, Anda memiliki dua tahap utama: mengambil konteks yang relevan berdasarkan input pengguna dan menghasilkan jawaban berdasarkan konteks tersebut. Untuk melakukan pengambilan, Anda dapat menghasilkan sematan dari prompt pengguna dan menghitung kemiripannya dengan sematan dari semua dokumen di sistem Anda. Ini memungkinkan Anda untuk mendapatkan bagian yang paling relevan dengan kueri pengguna. Kemudian, bagian-bagian ini bisa diteruskan ke model generatif, seperti Gemma 3, bersama dengan kueri pengguna yang asli, untuk menghasilkan jawaban yang relevan secara kontekstual, seperti memahami bahwa Anda membutuhkan nomor tukang kayu untuk membantu memperbaiki papan lantai yang rusak.

Agar pipeline RAG ini efektif, kualitas langkah pengambilan awal sangatlah penting. Sematan yang buruk akan mengambil dokumen yang tidak relevan, sehingga menghasilkan jawaban yang tidak akurat atau tidak masuk akal. Di sinilah performa EmbeddingGemma bersinar, memberikan representasi berkualitas tinggi yang diperlukan untuk mendukung aplikasi di perangkat yang akurat dan andal.


Kualitas terbaik untuk ukurannya

EmbeddingGemma memberikan pemahaman teks terbaik untuk ukurannya, dengan performa yang sangat kuat pada pembuatan sematan multibahasa.

Lihat perbandingan EmbeddingGemma dengan model sematan populer lainnya:

MTEB Multilingual v2
Dengan parameter 308M yang ringkas, EmbeddingGemma kuat dalam tugas-tugas seperti pengambilan, klasifikasi, dan pengelompokan jika dibandingkan dengan model sematan populer yang berukuran serupa.

Kecil, cepat, dan efisien

Model parameter 308M terdiri dari sekitar 100M parameter model dan 200M parameter sematan. Model ini dirancang untuk performa dan konsumsi sumber daya minimal.

  • Untuk fleksibilitas maksimal, EmbeddingGemma memanfaatkan Matryoshka Representation Learning (MRL) untuk menyediakan berbagai ukuran sematan dari satu model. Developer bisa menggunakan vektor berdimensi 768 penuh untuk kualitas maksimum atau memotongnya menjadi dimensi yang lebih kecil (128, 256, atau 512) untuk meningkatkan kecepatan dan menurunkan biaya penyimpanan.

  • Kami telah mendorong batas kecepatan dengan waktu inferensi sematan <15ms (256 token input) di EdgeTPU, yang berarti fitur AI Anda bisa memberikan respons real time untuk interaksi yang lancar dan langsung.

  • Dengan memanfaatkan pelatihan Quantization-Aware (QAT), kami secara signifikan mengurangi penggunaan RAM hingga di bawah 200MB sembari menjaga kualitas model.


Offline sesuai desain

EmbeddingGemma memberdayakan developer untuk membangun aplikasi di perangkat yang fleksibel dan berfokus pada privasi. Ia menghasilkan sematan dokumen secara langsung pada hardware perangkat, membantu memastikan keamanan data pengguna yang sensitif. Model ini menggunakan tokenizer yang sama dengan Gemma 3n untuk pemrosesan teks, sehingga mengurangi jejak memori dalam aplikasi RAG. Buka kemampuan baru dengan EmbeddingGemma, seperti:

  • Menelusuri seluruh file pribadi, teks, email, dan notifikasi Anda secara bersamaan tanpa koneksi internet.

  • Chatbot yang dipersonalisasi, disesuaikan untuk industri, dan diaktifkan secara offline melalui RAG dengan Gemma 3n.

  • Mengklasifikasikan kueri pengguna ke panggilan fungsi yang relevan untuk membantu pemahaman agen seluler.


Dan jika contoh ini tidak mencakup semuanya, sesuaikan EmbeddingGemma untuk domain khusus, tugas, atau bahasa tertentu dengan notebook panduan memulai kami.

Memilih model sematan yang tepat untuk kebutuhan Anda

Tujuan kami adalah menyediakan alat terbaik untuk memenuhi kebutuhan Anda. Dengan peluncuran ini, Anda sekarang memiliki model sematan untuk aplikasi apa pun.

  • Untuk kasus penggunaan offline di perangkat: EmbeddingGemma adalah pilihan terbaik Anda, dioptimalkan untuk privasi, kecepatan, dan efisiensi.

  • Untuk sebagian besar aplikasi sisi server berskala besar: Jelajahi model Gemini Embedding termutakhir kami melalui Gemini API untuk kualitas tertinggi dan performa maksimum.


Mulai gunakan EmbeddingGemma sekarang

Kami memprioritaskan aksesibilitas EmbeddingGemma sejak hari pertama dan telah bermitra dengan developer untuk mengaktifkan dukungan di berbagai platform dan framework populer. Mulailah membangun hari ini dengan teknologi yang sama yang akan mendukung pengalaman di platform pihak pertama Google seperti Android dengan alat yang biasa Anda gunakan.