隆重推出一流的设备端开放式嵌入模型——EmbeddingGemma

2025年9月4日
Min Choi Product Manager Google DeepMind
Sahil Dua Lead Research Engineer Google DeepMind

我们很高兴推出 EmbeddingGemma,这是一款全新开放式嵌入模型,在同一尺寸量级的模型中能提供一流性能。该模型专为设备端 AI 设计,其 308M 参数的设计紧凑高效,让您可以使用直接在硬件上运行的技术(例如 RAG 和语义搜索等)构建应用。该模型提供私密、高质量的嵌入向量。即使没有连接互联网,您也可以在任何地方使用这些嵌入向量。

MTEB Score
EmbeddingGemma 的性能几乎相当于尺寸是其两倍的热门模型。

EmbeddingGemma:

  • 性能一流:在 Massive Text Embedding Benchmark (MTEB) 榜单上参数小于 500M 的模型中排名第一。EmbeddingGemma 基于 Gemma 3 架构,使用 100 多种语言进行训练。该模型尺寸很小,经量化后,运行所需的 RAM 不到 200 MB。

  • 专为灵活的离线工作打造:模型具有小巧、迅速、高效的特点,提供可定制的输出维度(借助 Matryoshka 表征实现从 768 到 128 不等的输出维度)和 2K 令牌上下文窗口,可在手机、笔记本电脑、桌面设备等日常设备上运行。该模型可与 Gemma 3n 配合使用,二者共同解锁移动 RAG 流水线、语义搜索等新用例。

Link to Youtube Video (visible only when JS is disabled)

EmbeddingGemma 如何实现移动优先的 RAG 流水线

EmbeddingGemma 可生成嵌入向量。这些嵌入向量是数字表征,在本例中,它们是文本(例如句子和文档)的数字表征。该模型生成嵌入向量的方式是将文本转换为数字向量,以便在高维空间中表达一定含义。嵌入向量的质量越好,对语言及其所有细微差别和复杂性的表征也越详细和准确。

构建 RAG 流水线时,有两个关键阶段:根据用户的输入检索相关上下文,并生成基于该上下文的回答。要执行检索,您可以生成用户提示的嵌入向量,并计算与系统上所有文档的嵌入向量之间的相似度。这样您就可以获取与用户查询最相关的段落。然后,系统可以将这些段落与原始用户查询一起传递给生成式模型(如 Gemma 3),使其生成与上下文相关的回答,例如模型理解到您需要木工的电话来联系木工师傅,维修损坏的地板。

为实现有效的 RAG 流水线,初始检索步骤的质量至关重要。低质量嵌入向量会导致检索不相关的文档,进而输出不准确或荒谬的答案。该步骤正是 EmbeddingGemma 展现性能的高光时刻,它能提供高质量表征,为打造准确可靠的设备端应用提供支持。


同等尺寸下最先进

EmbeddingGemma 提供同等尺寸下最先进的文本理解性能,在生成多语言嵌入向量方面表现尤为出色。

查看 EmbeddingGemma 与其他热门嵌入模型的比较:

MTEB Multilingual v2
EmbeddingGemma 拥有紧凑的 308M 参数,与类似尺寸的热门嵌入模型相比,在检索、分类和聚类等任务方面表现出色。

小巧、迅速且高效

在该模型的 308M 参数中,约有 100M 为模型参数,200M 为嵌入向量参数。其设计注重提供良好性能,并最小化资源消耗。

  • 为了拥有最高限度的灵活性,EmbeddingGemma 利用 Matryoshka 表征学习 (MRL),让一个模型可提供多种尺寸的嵌入向量。开发者可以使用完整的 768 维向量来获得最高质量,也可以将其截断为较小的尺寸(如 128 维、256 维或 512 维),以提高速度并降低存储费用。

  • 我们在 EdgeTPU 上实现了 <15 毫秒的嵌入推理时间(256 输入令牌),突破了速度的界限。这意味着您的 AI 功能可以提供实时响应,带来流畅的即时交互体验。

  • 我们利用量化感知训练 (QAT),在保持模型质量的同时,将 RAM 使用量大幅降低到 200MB 以下。


为离线而生

EmbeddingGemma 使开发者能够在设备端构建灵活且注重隐私的应用。该模型直接在设备硬件上生成文档嵌入向量,有助于确保敏感用户数据的安全。它使用与 Gemma 3n 相同的分词器处理文本,减少了 RAG 应用的内存占用。运用 EmbeddingGemma 可解锁新功能,例如:

  • 在没有互联网连接的情况下,同时检索您的个人文件、短信、电子邮件和通知。

  • 借助 Gemma 3n 实现的 RAG,提供个性化、为行业定制且支持离线使用的聊天机器人。

  • 将用户查询分类为相关函数调用,帮助移动端智能体理解。


如果这些示例没有涵盖您的需求,请使用我们的快速入门笔记本,进一步微调 EmbeddingGemma,使其可用于特定领域、任务或特定语言。

根据您的需求选择合适的嵌入模型

我们的目标是提供满足您需求的最佳工具。此次发布 EmbeddingGemma 后,您便拥有了适用于任何应用的嵌入模型。

  • 对于设备端和离线用例:EmbeddingGemma 是您的最佳选择,针对隐私、速度和效率进行了优化。

  • 对于大多数大型服务器端应用:通过 Gemini API 探索我们最先进的 Gemini 嵌入模型,体验最优质量和最佳性能。


立即开始使用 EmbeddingGemma

我们从一开始就把可访问性作为 EmbeddingGemma 的优先事项,并与开发者合作,让各热门平台和框架支持使用该模型。现在起,您可以体验为 Google 第一方平台(如 Android)提供支持的强大技术,并使用您熟悉的工具开始构建应用。