自首次推出以来,Gemma 模型的下载量已超过 1 亿次,开发者社群利用该模型,为各种用例创建了超过 60,000 个变体。现在,我们很高兴能推出 Gemma 3。该版本以此前 Gemma 版本的成功为基础,是 Gemma 开放模型系列迄今为止最强大、最先进的版本。我们听取了社群反馈,在其中添加了最受欢迎的一些功能,例如更长的语境、多模态性,还有更多亮点!
Link to Youtube Video (visible only when JS is disabled)
Gemma 3 引入了多模态性,支持视觉语言输入和文本输出。它能处理多达 128k 个令牌的上下文窗口,理解 140 多种语言,并提供改进的数学、推理和聊天功能,包括结构化输出和函数调用。Gemma 3 有四种尺寸(1B、4B、12B 和 27B),既可以作为经过预训练的模型,并根据您自己的用例和域进行微调;也可作为指令调整版本,应用于通用目的。
Gemma 组合运用蒸馏、强化学习和模型合并,优化了训练前和训练后流程。这种方法提高了数学、编码和指令跟随方面的性能。Gemma 3 使用新的分词器,为 140 多种语言提供更好的多语言支持,并在 Google TPU 上使用 JAX 框架,针对 1B 的 2T 令牌、4B 的 4T 令牌、12B 的 12T 令牌和 27B 的 14T 令牌进行了训练。
对于训练后流程,Gemma 3 使用 4 个组件:
这些更新显著改善了模型的数学、编码和指令跟随功能,使其获 1338 的评分,成为 LMArena 中得分最高的开放式紧凑型模型,。
Gemma 3 的指令版本使用与 Gemma 2 相同的对话框格式,因此对于仅文本输入,您无需更新工具来更新到最新版本。对于图像输入,Gemma 3 允许指定穿插在文本中的图像。
<bos><start_of_turn>user
knock knock<end_of_turn>
<start_of_turn>model
who is there<end_of_turn>
<start_of_turn>user
Gemma<end_of_turn>
<start_of_turn>model
Gemma who?<end_of_turn>
文本中穿插图像示例
<bos><start_of_turn>user
Image A: <start_of_image>
Image B: <start_of_image>
Label A: water lily
Label B:<end_of_turn>
<start_of_turn>model
Desert rote<end_of_turn>
Gemma 3 具有基于 SigLIP 的集成视觉编码器。Gemma 3 视觉模型(训练期间保持冻结)在不同尺寸(4B、12B 和 27B)下保持不变。因此,Gemma 可处理图像和视频输入,据此分析图像、回答有关图像的问题、比较图像、识别其中对象,甚至根据图像中的文本做出回复。该模型虽然最初是为处理 896x896 像素的图像而创建,但使用了一种新的自适应窗口算法来分割输入图像,因此 Gemma 3 能够处理高分辨率和非方形图像。
ShieldGemma 2 是基于 Gemma 3 构建的 4B 图像安全分类器。它针对各个关键安全类别输出标签,以安全调节合成图像(来自图像生成模型)和自然图像(可作为诸如 Gemma 3 等视觉语言模型的输入过滤器)。了解有关 ShieldGemma 2 的更多信息。
Gemma 社群的聪明才智和 Gemmaverse 的爆炸性增长,正不断给我们带来惊喜。从研究实验室探索创新微调技术的实践,到开发者用全新模态训练 Gemma,我们热切期待看到您的下一个突破。实验室创新微调的例子有普林斯顿 NLP 开发的 SimPO 方法,该方法在没有参考模型的情况下直接针对人类偏好进行优化;另一例子是 INSAIT 针对保加利亚语训练的最先进的大语言模型。而就开发者训练 Gemma 而言,Nexa AI 对 OmniAudio 的实践提供了典型案例。
准备好即刻探索 Gemma 3 的潜力了吗?请查收以下攻略: