EmbeddingGemma の概要: オンデバイス埋め込み処理向けの最高水準オープンモデル

2025年9月4日

Min Choi Product Manager Google DeepMind

Sahil Dua Lead Research Engineer Google DeepMind

Alice Lisak

今回 EmbeddingGemma をご紹介できることを嬉しく思います。EmbeddingGemma はそのサイズにおいてクラス最高のパフォーマンスを発揮する新しいオープン埋め込みモデルです。オンデバイス AI 専用に設計された高効率の 3 億 800 万パラメータ設計により、ハードウェア上で直接実行される検索拡張生成（RAG）やセマンティック検索などの手法を活用したアプリケーションを構築できます。インターネット接続がなくてもどこでも動作する、プライベートで高品質な埋め込みを実現します。

EmbeddingGemma はサイズがほぼ 2 倍の人気モデルに匹敵する性能を発揮します。

EmbeddingGemma の特徴:

最高水準: Massive Text Embedding Benchmark（MTEB）において、5 億パラメータ未満のオープン多言語テキスト埋め込みモデルとして最高ランクを獲得しました。Gemma 3 アーキテクチャを基盤とする EmbeddingGemma は、100 以上の言語でトレーニングされており、量子化処理により 200MB 未満の RAM でも実行できるほど小型です。

オフラインでの柔軟な動作: 小型、高速、高効率なこのモデルは、カスタマイズ可能な出力次元（マトリョーシカ表現により 768 から 128 まで調整可能）と 2K トークンのコンテキストウィンドウを備えており、スマートフォン、ノートパソコン、デスクトップパソコンなどの日常的なデバイスで動作します。Gemma 3n と連携するように設計されており、モバイル RAG パイプライン、セマンティック検索などの新しいユースケースも実現できます。

一般的なツールとの統合: EmbeddingGemma を簡単に使い始められるように、お気に入りのツールとの連携がすでに可能となっています。sentence-transformers、llama.cpp、MLX、Ollama、LiteRT、transformers.js、LMStudio、Weaviate、Cloudflare、LlamaIndex、LangChain などが利用可能です。

Link to Youtube Video (visible only when JS is disabled)

EmbeddingGemma がモバイルファーストの RAG パイプラインを可能にする仕組み

EmbeddingGemma は埋め込みを生成します。埋め込みとは数値表現であり、この例ではテキスト（文やドキュメントなど）を高次元空間で意味を表現するために数値ベクトルに変換したものです。埋め込みの質が優れているほど、ニュアンスや複雑さを含めた言語の表現が向上します。

RAG パイプラインをビルドする際には、ユーザーの入力に基づいて関連するコンテキストを取得し、そのコンテキストに基づいて回答を生成するという 2 つの重要な段階があります。取得を実行するには、ユーザーのプロンプトの埋め込みを生成し、システム上の全ドキュメントの埋め込みとの類似度を計算します。これにより、ユーザーのクエリに最も関連性の高い文章を取得できます。次に、これらの文章が元のユーザークエリとともに Gemma 3 などの生成モデルに渡され、文脈に沿った回答（例: 損傷した床板を修理するために大工の電話番号が必要だと理解できる）が生成されます。

この RAG パイプラインを効果的に機能させるには、最初の取得ステップの品質が極めて重要です。埋め込みの質が低いと、関連性のないドキュメントが取得され、不正確または意味をなさない回答につながります。EmbeddingGemma のパフォーマンスが真価を発揮するのはまさにこの点であり、正確で信頼性の高いオンデバイスアプリケーションに必要な高品質の表現を提供します。

そのサイズにおける最高水準の品質

EmbeddingGemma は、そのサイズでは最新鋭のテキスト理解能力を提供し、特に多言語埋め込み生成において強力なパフォーマンスを発揮します。

EmbeddingGemma と他の一般的な埋め込みモデルとの比較をご覧ください。

3 億 800 万パラメータというコンパクト設計でありながら、EmbeddingGemma は、同様のサイズの一般的な埋め込みモデルと比較して取得、分類、クラスタリングなどのタスクで優れた性能を発揮します。

小型、高速、高効率

この 3 億 800 万パラメータモデルは、約 1 億のモデルパラメータと約 2 億の埋め込みパラメータで構成されており、パフォーマンスと最小限のリソース消費を追求して設計されています。

究極の柔軟性を実現するために、EmbeddingGemma はマトリョーシカ表現学習（MRL）を活用して、1 つのモデルから複数の埋め込みサイズを提供します。デベロッパーは、768 次元のベクトル全体を使用して品質を最大限に高めることも、より小さな次元（128、256、512）に切り詰めて速度を向上させ、ストレージ費用を削減することも可能です。

EdgeTPU で 15 ミリ秒未満の埋め込み推論時間（256 入力トークン）を達成し、速度の限界を押し広げました。これにより、AI 機能が流動的で即時的なインタラクションに対してリアルタイムの応答を提供できるようになります。

量子化認識トレーニング（QAT）を活用することで、モデルの品質を維持しながら RAM 使用量を 200MB 未満に大幅に削減しました。

オフライン対応設計

EmbeddingGemma を使用すると、デベロッパーは柔軟かつプライバシー重視のオンデバイスアプリケーションをビルドできます。デバイスのハードウェア上で直接ドキュメントの埋め込みが生成されるため、機密性の高いユーザーデータを確実に保護できます。テキスト処理には Gemma 3n と同じトークナイザーを採用しており、RAG アプリケーションのメモリフットプリントを削減します。EmbeddingGemma を使用すると、次のような新機能を利用できます。

インターネットに接続せずに、個人のファイル、テキスト、メール、通知を同時に検索。

Gemma 3n と RAG を活用して、パーソナライズされた業界固有のオフライン対応 chatbot を作成。

ユーザークエリを関連する関数呼び出しに分類し、モバイルエージェントの理解を支援。

これらの例でカバーされていない場合は、クイックスタートノートブックを使用して特定のドメイン、タスク、または言語向けに EmbeddingGemma をファインチューニングします。

3 次元空間でのテキスト埋め込みを可視化する EmbeddingGemma のインタラクティブデモ。モデルは Transformers.js を使用し、ブラウザ上で直接、完全なオンデバイス動作を実現します。こちらからお試しください。（クレジット: Joshua（X アカウント: @xenovacom）、Hugging Face チーム）

ニーズに合った適切な埋め込みモデルの選択

私たちの目標は、お客様のニーズに最適なツールを提供することです。今回のリリースにより、あらゆるアプリケーション向けの埋め込みモデルが利用できるようになりました。

オンデバイス、オフラインのユースケースの場合: プライバシー、速度、効率性に最適化された EmbeddingGemma は適切な選択肢です。

多くの大規模なサーバーサイドアプリケーションの場合: Gemini API を介して最先端の Gemini Embedding モデルをお試しください。最高水準の品質とパフォーマンスを実現できます。

EmbeddingGemma を使ってみる

EmbeddingGemma については、リリース当初からアクセシビリティを最優先に考え、主要なプラットフォームやフレームワークでのサポートを可能にするためにデベロッパーの皆さんと連携してきました。Android をはじめとする Google の自社プラットフォームエクスペリエンスを支えているテクノロジーと同じものを活用し、普段お使いのツールで今すぐビルドを開始していただけます。

モデルのダウンロード: Hugging Face、Kaggle、Vertex AI でモデルの重みが公開されています。

学習と統合: Google のドキュメントを参照して EmbeddingGemma をプロジェクトにすばやく統合するか、推論とファインチューニングに関するガイドをご確認ください。また、Gemma クックブックのクイックスタート RAG サンプルもお試しください。

257 / 5,000お気に入りのデバイス内 AI ツールを使用して構築: transformers.js、MLX、llama.cpp、LiteRT、Ollama、LMStudio、Weaviate、Docker など。