通过 Gemini API 体验最先进的文本嵌入

三月 07, 2025
Logan Kilpatrick Senior Product Manager Gemini API and Google AI Studio
Zach Gleicher Product Manager Google DeepMind
Parashar Shah Product Manger Google Cloud

[图像由 Google 使用 Gemini 2.0 Flash 原生图像生成功能创建]


今天,我们将在 Gemini API 中推出一款全新的实验性 Gemini Embedding 文本模型 (gemini-embedding-exp-03-07)1

此嵌入模型基于 Gemini 模型本身进行训练,继承了 Gemini 对语言和细微上下文的理解能力,因而适用于各种用途。这款新的嵌入模型超越了我们之前最先进的模型:text-embedding-004,在 Massive Text Embedding Benchmark (MTEB) 多语言排行榜上荣登榜首,并带来了如更长的输入令牌长度等新功能!


迄今为止功能最强大的文本嵌入模型

此模型经过训练具有显著的通用性,在包括金融、科学、法律、搜索等多个领域中均表现出色。它开箱即用,有效减少了针对特定任务进行大量微调的需要。

MTEB(多语言)排行榜通过诸如检索和分类等不同任务对文本嵌入模型进行排名,为模型比较提供了全面的基准。我们的 Gemini 嵌入模型达到了 68.32 的平均(任务)分数,比紧随其后的竞争模型高出 5.81 分。

MTEB Leaderboard text model performance ranking
我们的新 Gemini 文本嵌入模型 (gemini-embedding-exp-03-07) 在 MTEB(多语言)排行榜上取得高分(右键点击可在新标签页中打开图片)。

为什么要选择嵌入?

无论是构建智能检索增强生成 (RAG)、推荐系统,还是文本分类,LLM 理解文本背后含义的能力必不可少。嵌入对于构建更高效的系统通常至关重要,它可以在降低费用和延迟的同时,比关键词匹配系统提供更好的结果。嵌入通过数据的数值表征捕捉语义意义和上下文。具有相似语义含义的数据具有更紧密的嵌入关系。嵌入支持广泛的应用场景,包括:

  • 高效检索:通过比较查询和文档的嵌入,在大型数据库(如法律文档检索或企业搜索)中查找相关文档。

  • 检索增强生成 (RAG):通过检索上下文相关信息并将其纳入模型的上下文来提高生成文本的质量和相关性。

  • 聚类和分类:将相似的文本归为一类,识别数据中的趋势和主题。

  • 分类:根据文本内容自动分类,例如情感分析或垃圾信息检测。

  • 文本相似度:识别重复内容,支持网页重复信息删除或抄袭检测等任务。

您可以在 Gemini API 文档中了解有关嵌入和常见 AI 案例的更多信息。


开始使用 Gemini Embedding

开发者现在可以通过 Gemini API 访问我们新的实验性 Gemini Embedding 模型。该模型与现有的 embed_content 端点兼容。

from google import genai
 
client = genai.Client(api_key="GEMINI_API_KEY")
 
result = client.models.embed_content(
        model="gemini-embedding-exp-03-07",
        contents="How does alphafold work?",
)
 
print(result.embeddings)

除了提高所有维度的质量外,Gemini Embedding 还具有以下特点:

  • 输入令牌限制为 8K 令牌。我们改进了以前模型的上下文长度,支持嵌入大块文本、代码或其他数据。

  • 输出维度为 3K 维度。与之前的嵌入模型相比,这种高维嵌入几乎多出了 4 倍的令牌。

  • Matryoshka 表征学习 (MRL):MRL 支持截断原始的 3K 维度以缩容,从而满足您期望的存储成本。

  • 扩展的语言支持。我们将支持的语言数量翻了一番,达到了 100 多种。

  • 统一模型。此模型超越了我们之前针对特定任务的多语言模型、仅英语模型以及代码专用模型的质量。


虽然目前这个模型还处于实验阶段,容量有限,但这次发布为您提供了一个早期探索 Gemini Embedding 功能的机会。与所有实验性模型一样,该模型可能会发生变化,我们正努力在未来几个月内推出一个稳定且广泛可用的版本。我们非常期待在嵌入反馈表中听到您的心声。



1 在 Vertex AI 上,相同的模型通过名为“text-embedding-large-exp-03-07”的端点提供。对于正式版,命名将保持一致。