隆重推出 Gemma 3:开发者指南

三月 12, 2025
Omar Sanseviero Staff Developer Relations Engineer
Philipp Schmid Developer Relations Engineer

自首次推出以来,Gemma 模型的下载量已超过 1 亿次,开发者社群利用该模型,为各种用例创建了超过 60,000 个变体。现在,我们很高兴能推出 Gemma 3。该版本以此前 Gemma 版本的成功为基础,是 Gemma 开放模型系列迄今为止最强大、最先进的版本。我们听取了社群反馈,在其中添加了最受欢迎的一些功能,例如更长的语境、多模态性,还有更多亮点!


Gemma 有哪些新功能?

Link to Youtube Video (visible only when JS is disabled)

Gemma 3 引入了多模态性,支持视觉语言输入和文本输出。它能处理多达 128k 个令牌的上下文窗口,理解 140 多种语言,并提供改进的数学、推理和聊天功能,包括结构化输出和函数调用。Gemma 3 有四种尺寸(1B、4B、12B 和 27B),既可以作为经过预训练的模型,并根据您自己的用例和域进行微调;也可作为指令调整版本,应用于通用目的。

Comparison chart - Gemma models

Gemma 是如何建造的?

Gemma 组合运用蒸馏、强化学习和模型合并,优化了训练前和训练后流程。这种方法提高了数学、编码和指令跟随方面的性能。Gemma 3 使用新的分词器,为 140 多种语言提供更好的多语言支持,并在 Google TPU 上使用 JAX 框架,针对 1B 的 2T 令牌、4B 的 4T 令牌、12B 的 12T 令牌和 27B 的 14T 令牌进行了训练。

对于训练后流程,Gemma 3 使用 4 个组件:

  • 从较大的 INSTRUCT 模型蒸馏到 Gemma 3 预训练检查点。

  • 从人类反馈 (RLHF) 中强化学习,以使模型预测与人类偏好保持一致。

  • 从机器反馈 (RLMF) 中强化学习,以增强数学推理。

  • 从执行反馈 (RLEF) 中强化学习,以提升编码能力。

这些更新显著改善了模型的数学、编码和指令跟随功能,使其获 1338 的评分,成为 LMArena 中得分最高的开放式紧凑型模型,。

Graph showing a comparison of Model performance v. Size

Gemma 3 的指令版本使用与 Gemma 2 相同的对话框格式,因此对于仅文本输入,您无需更新工具来更新到最新版本。对于图像输入,Gemma 3 允许指定穿插在文本中的图像。


多回合文本示例

<bos><start_of_turn>user
knock knock<end_of_turn>
<start_of_turn>model
who is there<end_of_turn>
<start_of_turn>user
Gemma<end_of_turn>
<start_of_turn>model
Gemma who?<end_of_turn>

文本中穿插图像示例

<bos><start_of_turn>user
Image A: <start_of_image>
Image B: <start_of_image>
 
Label A: water lily
Label B:<end_of_turn>
<start_of_turn>model
Desert rote<end_of_turn>

多模态性

Gemma 3 具有基于 SigLIP 的集成视觉编码器。Gemma 3 视觉模型(训练期间保持冻结)在不同尺寸(4B、12B 和 27B)下保持不变。因此,Gemma 可处理图像和视频输入,据此分析图像、回答有关图像的问题、比较图像、识别其中对象,甚至根据图像中的文本做出回复。该模型虽然最初是为处理 896x896 像素的图像而创建,但使用了一种新的自适应窗口算法来分割输入图像,因此 Gemma 3 能够处理高分辨率和非方形图像。

Gemma 3 Multimodality example
输入:我需要取暖,哪个按钮可以打开暖气?
Gemma 3 multimodality - output example
根据图片,可能开启暖气的按钮是暖房 (Danbou)。\ r “暖房”在日语中意为“加热”。您按下此按钮,可以开启空调/环境温度控制系统的加热功能。\ r 带有加号 (+) 的按钮可能用于选择加热模式后调整温度。

ShieldGemma 2

ShieldGemma 2 是基于 Gemma 3 构建的 4B 图像安全分类器。它针对各个关键安全类别输出标签,以安全调节合成图像(来自图像生成模型)和自然图像(可作为诸如 Gemma 3 等视觉语言模型的输入过滤器)。了解有关 ShieldGemma 2 的更多信息。


您要开发哪些应用?

Gemma 社群的聪明才智和 Gemmaverse 的爆炸性增长,正不断给我们带来惊喜。从研究实验室探索创新微调技术的实践,到开发者用全新模态训练 Gemma,我们热切期待看到您的下一个突破。实验室创新微调的例子有普林斯顿 NLP 开发的 SimPO 方法,该方法在没有参考模型的情况下直接针对人类偏好进行优化;另一例子是 INSAIT 针对保加利亚语训练的最先进的大语言模型。而就开发者训练 Gemma 而言,Nexa AI 对 OmniAudio 的实践提供了典型案例。


Gemma 3 快速入门指南

准备好即刻探索 Gemma 3 的潜力了吗?请查收以下攻略:

  • 直接体验:只需点击几下,即可在 Google AI Studio 试用 Gemma 3。

  • 学习并整合:深入了解我们的技术报告全面的文档,以快速将 Gemma 集成到您的项目中;您也可从我们的推理指南开始体验,或尝试使用自定义数据集进行微调。