[图像由 Google 使用 Gemini 2.0 Flash 原生图像生成功能创建]
今天,我们将在 Gemini API 中推出一款全新的实验性 Gemini Embedding 文本模型 (gemini-embedding-exp-03-07)1 。
此嵌入模型基于 Gemini 模型本身进行训练,继承了 Gemini 对语言和细微上下文的理解能力,因而适用于各种用途。这款新的嵌入模型超越了我们之前最先进的模型:text-embedding-004,在 Massive Text Embedding Benchmark (MTEB) 多语言排行榜上荣登榜首,并带来了如更长的输入令牌长度等新功能!
此模型经过训练具有显著的通用性,在包括金融、科学、法律、搜索等多个领域中均表现出色。它开箱即用,有效减少了针对特定任务进行大量微调的需要。
MTEB(多语言)排行榜通过诸如检索和分类等不同任务对文本嵌入模型进行排名,为模型比较提供了全面的基准。我们的 Gemini 嵌入模型达到了 68.32 的平均(任务)分数,比紧随其后的竞争模型高出 5.81 分。
无论是构建智能检索增强生成 (RAG)、推荐系统,还是文本分类,LLM 理解文本背后含义的能力必不可少。嵌入对于构建更高效的系统通常至关重要,它可以在降低费用和延迟的同时,比关键词匹配系统提供更好的结果。嵌入通过数据的数值表征捕捉语义意义和上下文。具有相似语义含义的数据具有更紧密的嵌入关系。嵌入支持广泛的应用场景,包括:
您可以在 Gemini API 文档中了解有关嵌入和常见 AI 案例的更多信息。
开发者现在可以通过 Gemini API 访问我们新的实验性 Gemini Embedding 模型。该模型与现有的 embed_content
端点兼容。
from google import genai
client = genai.Client(api_key="GEMINI_API_KEY")
result = client.models.embed_content(
model="gemini-embedding-exp-03-07",
contents="How does alphafold work?",
)
print(result.embeddings)
除了提高所有维度的质量外,Gemini Embedding 还具有以下特点:
虽然目前这个模型还处于实验阶段,容量有限,但这次发布为您提供了一个早期探索 Gemini Embedding 功能的机会。与所有实验性模型一样,该模型可能会发生变化,我们正努力在未来几个月内推出一个稳定且广泛可用的版本。我们非常期待在嵌入反馈表中听到您的心声。
1 在 Vertex AI 上,相同的模型通过名为“text-embedding-large-exp-03-07”的端点提供。对于正式版,命名将保持一致。