[Gambar yang dibuat oleh Google dengan pembuatan gambar native Gemini 2.0 Flash]
Hari ini, kami membuat model teks Gemini Embedding eksperimental baru (gemini-embedding-exp-03-07)1 tersedia di Gemini API.
Dilatih menggunakan model Gemini itu sendiri, model sematan ini mewarisi pemahaman bahasa dan konteks khas Gemini yang membuatnya bisa diterapkan untuk berbagai penggunaan. Model sematan baru ini melampaui model tercanggih kami sebelumnya (text-embedding-004), meraih peringkat teratas di papan peringkat Massive Text Embedding Benchmark (MTEB) Multibahasa, dan hadir dengan fitur-fitur baru, seperti panjang token input yang lebih panjang!
Kami melatih model kami agar bersifat sangat umum, yang memberikan performa yang luar biasa pada berbagai domain, termasuk keuangan, sains, legal, penelusuran, dan lainnya. Model ini langsung bekerja secara efektif sejak diaktifkan, sehingga Anda tidak perlu melakukan penyesuaian yang ekstensif untuk tugas tertentu.
Papan peringkat MTEB (Multibahasa) memberi peringkat model sematan teks di berbagai tugas seperti pengambilan dan klasifikasi untuk memberikan tolok ukur yang komprehensif untuk perbandingan model. Model Gemini Embedding kami mencapai skor (tugas) rata-rata 68,32–selisih +5,81 dari model pesaing terdekat berikutnya.
Dari membangun retrieval augmented generation (RAG) cerdas dan sistem rekomendasi hingga klasifikasi teks, kemampuan LLM untuk memahami makna di balik teks sangatlah penting. Sematan sering kali sangat penting untuk membangun sistem yang lebih efisien, mengurangi biaya dan latensi, serta secara umum memberikan hasil yang lebih baik daripada sistem pencocokan kata kunci. Sematan menangkap makna semantik dan konteks melalui representasi numerik data. Data dengan makna semantik yang sama memiliki sematan yang lebih dekat. Sematan memungkinkan berbagai macam aplikasi, termasuk:
Anda bisa mempelajari lebih lanjut tentang sematan dan kasus penggunaan AI secara umum dalam dokumen Gemini API.
Developer kini bisa mengakses model Gemini Embeddings eksperimental kami yang baru melalui Gemini API. Model ini kompatibel dengan endpoint embed_content
saat ini.
from google import genai
client = genai.Client(api_key="GEMINI_API_KEY")
result = client.models.embed_content(
model="gemini-embedding-exp-03-07",
contents="How does alphafold work?",
)
print(result.embeddings)
Selain peningkatan kualitas di seluruh dimensi, Gemini Embedding juga memiliki fitur:
Meskipun saat ini masih dalam tahap eksperimental dengan kapasitas terbatas, rilis ini memberi Anda kesempatan awal untuk menjelajahi kemampuan Gemini Embedding. Seperti semua model eksperimental, model ini sewaktu-waktu bisa berubah, dan kami sedang bekerja untuk membuat rilis stabil yang tersedia secara umum di bulan-bulan mendatang. Kami ingin mendengar masukan Anda pada formulir masukan sematan.
1 Pada Vertex AI, model yang sama disalurkan melalui endpoint “text-embedding-large-exp-03-07.” Untuk ketersediaan umum, penamaan akan konsisten.