隆重推出 Gemma 3n:开发者指南

2025年6月26日
Omar Sanseviero Staff Developer Relations Engineer
Ian Ballantyne Senior Developer Relations Engineer

第一个 Gemma 模型于去年年初推出,此后该模型不断发展,逐渐形成一个生机勃勃的 Gemmaverse 生态系统,拥有超过 1.6 亿的集体下载量。这个生态系统包括我们十几个专业模型系列,覆盖从安全防护到医疗应用的各领域。其中,最鼓舞人心的是来自社区的无数创新。从像 Roboflow 这样的创新者构建的企业层面计算机视觉,到东京科学研究所创建的高性能的日本 Gemma 变体,大家的工作为我们展示了未来的发展路径。

趁着这一激动人心的良好发展势头,我们很高兴地宣布:Gemma 3n 现已全面发布。虽然上个月的预览版已先行展示了一些功能,但这一移动设备优先架构现在能够发挥出全部的潜能。Gemma 3n 为帮助塑造 Gemma 的开发者社区而生。包括 Hugging Face Transformers、llama.cpp、Google AI Edge、Ollama 和 MLX 在内,您熟悉和惯用的多种工具都支持该模型,让您能轻松针对特定的设备端应用进行微调和部署。这篇文章将以开发者视角深入探索,介绍 Gemma 3n 背后的一些创新,分享新的基准测试结果,并告诉您如何立即开始构建。


Gemma 3n 有哪些新功能?

Gemma 3n 代表了设备端 AI 的重大进步,为边缘设备带来了强大的多模态功能;过去,这些性能仅有去年基于云的一些前沿模型才能实现。

Link to Youtube Video (visible only when JS is disabled)

  • 多模态设计:Gemma 3n 原生支持图像、音频、视频和文本输入以及文本输出。

  • 针对设备端优化:Gemma 3n 模型的设计以效率为重点,基于有效参数提供两种尺寸:E2B 和 E4B。虽然其原始参数计数分别为 5B 和 8B,但架构创新使它们运行所需的内存分别与传统 2B 和 4B 模型相当,E2B 仅需 2GB 内存、E4B 仅需 3GB 内存即可运行。

  • 突破性架构:Gemma 3n 的核心特征包括新颖的组件,如用于计算的灵活性的 MatFormer 架构、用于内存效率的分层嵌入 (PLE)、用于架构效率的 LAuReL 和 AltUp,以及针对设备端用例优化的全新音频编码器和基于 MobileNet-v5 的视觉编码器。

  • 改进的质量:Gemma 3n 在多语言(支持 140 种语言的文本和对 35 种语言的多模态理解)、数学、编码和推理方面的质量均有提升。E4B 版本的 LMArena 得分超过 1,300,是首个达到该基准且参数低于 100 亿的模型。
LMArena Text Arena Elo Score rankings for Gemini 1.5 Pro, Gemma 3n E4B llama 4 Maverick 17B 128E GPT 4.1-nano and Phi-4

要实现这种设备端性能的飞跃,需要对模型进行彻底的重新构思和设计,其基础是 Gemma 3n 独特的移动设备优先架构,而这一切都始于 MatFormer。


MatFormer:一个模型,多种尺寸

Gemma 3n 的核心是 MatFormer (🪆Matryoshka Transformer) 架构,这是一种专为弹性推理而构建的新型嵌套转换器。不妨把它想象成俄罗斯套娃:较大的模型中嵌套着该模型较小的、功能齐全的版本。这种方法将 Matryoshka 表征学习的概念从嵌入扩展到所有转换器组件。

MatFormer in Nano V3

在 4B 有效参数 (E4B) 模型的 MatFormer 训练期间,其中的 2B 有效参数 (E2B) 子模型也在同时进行优化,如上图所示。这在当下为开发者提供了两种强大的功能和用例:

1、预提取的模型:您可以直接下载并使用主 E4B 模型以获得最高级的功能,也可以使用我们已经为您提取的独立 E2B 子模型,获得主模型 2 倍的推理速度。

2、使用混合匹配 (Mix-n-Match) 自定义调整尺寸:为了根据特定的硬件限制进行更精细的控制,您可以使用我们称之为“混合匹配”的方法,创建一系列尺寸介于 E2B 和 E4B 之间的自定义尺寸模型。此技术允许您精确切片 E4B 模型的参数,主要是通过调整每层前馈网络隐藏维度(从 8192 到 16384)并选择性地跳过某些层来实现。我们即将发布 MatFormer Lab,该工具可演示如何检索这些最优模型,这些模型是通过在 MMLU 等基准上评估多种配置而被识别出来的。

Custom Sizes with Mix-n-Match
不同模型尺寸的预训练 Gemma 3n 检查点的 MMLU 分数(使用混合匹配)

展望未来,MatFormer 架构也为弹性执行铺平了道路。虽然此功能不是今天推出的实现的一部分,但它允许单个部署的 E4B 模型在 E4B 和 E2B 推理路径之间动态切换,从而根据当前任务和设备负载,实时优化性能和内存用量。


分层嵌入 (PLE):解锁更高的内存效率

Gemma 3n 模型包含分层嵌入 (PLE)。这项创新专为设备端部署量身定制,因为它在不增加设备加速器 (GPU/TPU) 所需的高速内存占用量的情况下,显着提高了模型质量。

虽然 Gemma 3n E2B 和 E4B 模型的总参数计数分别为 5B 和 8B,但通过分层嵌入,这些参数的很大一部分(与每个层相关联的嵌入)可以在 CPU 上高效地加载和计算。这意味着在通常受限的加速器内存 (VRAM) 中,只需容纳核心转换器的权重(E2B 约为 2B,E4B 约为 4B)。

Per-Layer Embeddings
使用分层嵌入,当您在使用 Gemma 3n E2B 时,您的加速器中仅会加载约 2B 的参数。

KV 缓存共享:更迅速的长上下文处理

处理长输入(例如源自音频和视频流的序列)对于许多先进的设备端多模态应用至关重要。Gemma 3n 引入了 KV 缓存共享功能,该功能旨在极大缩短加快流式响应应用的首字延迟时间。

KV 缓存共享优化了模型处理初始输入处理阶段(通常称为“预填充”阶段)的方式。来自局部和全局关注的中间层的键和值直接与所有顶层共享,与 Gemma 3 4B 相比,预填充性能显着提升了 2 倍。这意味着该模型可以比以前更快地注入和理解冗长的提示序列。


音频理解:将语音转换为文本并翻译

Gemma 3n 使用基于通用语音模型 (USM) 的高级音频编码器。编码器为每 160ms 的音频(每秒约 6 个词元)生成一个词元,然后将其作为输入集成到语言模型中,从而提供声音上下文的粒度表征。

这种集成的音频功能解锁了设备端开发的多种关键功能,包括:

  • 自动语音识别 (ASR):直接在设备端实现高质量的语音转文字转录。

  • 自动语音翻译 (AST):将口语翻译成另一种语言的文本。

我们观察到,对于英语和西班牙语、法语、意大利语及葡萄牙语之间的翻译,AST 的效果尤其强大,为针对这些语言的应用开发者提供了巨大潜力。对于语音翻译等任务,利用思维链提示可以显着改进结果。以下是一个示例:

<bos><start_of_turn>user
用西班牙语转录以下语音片段,然后将其翻译成英语:
<start_of_audio><end_of_turn>
<start_of_turn>model
Plain text

截至发布时,Gemma 3n 编码器可处理长达 30 秒的音频片段。然而,这并不是一个根本上的限制。底层的音频编码器是一种流式编码器,通过额外的长格式音频训练,编码器可以处理任意长度的音频。后续实现将解锁延迟更低、时间更长的流媒体应用。


MobileNet-V5:最先进的全新视觉编码器

除了集成的音频功能外,Gemma 3n 还具有全新的高效视觉编码器 MobileNet-V5-300M,可为边缘设备上的多模态任务提供最先进的性能。

MobileNet-V5 旨在为受限的硬件赋予灵活性和强大功能,为开发者提供:

  • 支持多种输入分辨率:原生支持 256x256、512x512 和 768x768 像素的分辨率,让您可以根据特定应用需求平衡性能和细节。

  • 广泛的视觉理解力:该功能采用广泛的多模态数据集联合训练,擅长各种图像和视频理解任务。

  • 高吞吐量:在 Google Pixel 上每秒处理帧数高达 60 帧,实现设备端实时视频分析和交互式体验。

这种级别性能的实现基于多种架构创新,包括:

  • MobileNet-V4 块的先进基础(包括通用倒置瓶颈和移动 MQA)。

  • 架构大幅扩展,采用混合深度金字塔模型,体量达到了最大的 MobileNet-V4 变体的 10 倍。

  • 一种新型的多尺度 Fusion VLM 适配器,可提高词元的质量,以提高准确率和效率。


得益于新颖的架构设计和先进的蒸馏技术,MobileNet-V5-300M 在 Gemma 3 中的性能大大优于基准 SoViT(使用 SigLip 训练,无蒸馏)。在 Google Pixel Edge TPU 上,该编码器在有量化情况下提速 13 倍(无量化时为 6.5 倍),所需参数减少 46 %,内存占用减少为原来的 1/4,同时在视觉语言任务上的准确性显着提升

我们很期待与大家分享该模型的更多研发工作。请留意我们即将发布的 MobileNet-V5 技术报告,该报告将深入探讨模型架构、数据扩展策略和先进的蒸馏技术。


与社区共同建构

让开发者在 Gemma 3n 发布的第一时间享受到该模型是我们的第一要务。我们有幸能与许多出色的开源开发者合作,确保模型能在多个热门工具和平台得到广泛支持,众多工具/平台的研发团队也为此做出了重要贡献,包括 AMD、Axolotl、Docker、Hugging Face、llama.cpp、LMStudio、MLX、NVIDIA、Ollama、RedHat、SGLang、Unsloth 和 vLLM 等。

但这个生态系统仅仅是开始。这项技术的真正力量在于用它构建的成果。正因如此,我们推出了“Gemma 3n 影响力挑战赛”。您的任务是使用 Gemma 3n 独特的在线、离线和多模态功能构建产品,从而让世界更美好。提交引人入胜的视频介绍,并通过令人惊艳的演示展现产品的真实影响力,就有机会赢取 15 万美元的奖金!欢迎加入挑战,共创美好未来。


立即开始使用 Gemma 3n

准备好即刻探索 Gemma 3n 的潜力了吗?请查收以下攻略:

  • 直接试用:只需点击几下,即可使用Google AI Studio试用 Gemma 3n。Gemma 模型也可以直接从 AI Studio 部署到 Cloud Run。

  • 学习&整合:深入了解我们的综合文档,快速将 Gemma 集成到您的项目中,或从我们的推理和微调指南开始入门。