更安全+多模态：Gemma 的 Responsible AI

2025年3月12日

Dana Kurniawan Product Manager

Wenjun Zeng Software Engineer

Ryan Mullins Software Engineer

去年，我们发布了 ShieldGemma，这是一套基于 Gemma 2 构建的安全内容分类器模型，专门用于检测 AI 模型的文本输入和输出中的有害内容。随着今日 Gemma 3 的发布，我们很高兴能在 Responsible AI 基础上构建并推出 ShieldGemma 2。

Link to Youtube Video (visible only when JS is disabled)

ShieldGemma 2 是基于 Gemma 3 构建的 40 亿 (4B) 参数模型，可针对关键类别检查合成图像和自然图像的安全性，以帮助您构建强大的数据集和模型。借助这一 Gemma 系列模型的新成员，研究人员和开发者现在可以轻松降低其模型在关键危害领域出现有害内容的风险：

露骨色情内容

危险内容

暴力

Use ShieldGemma as an input filter to any vision language model, or an an output filter of image generation models

我们建议使用 ShieldGemma 2 作为视觉语言模型的输入过滤器，或作为图像生成系统的输出过滤器。ShieldGemma 可用于合成图像和自然图像。

ShieldGemma 2 有什么不同？

除了文本之外，多模态模型中的图像安全性训练和理解也带来了新的挑战。正是出于这个原因，我们构建了 ShieldGemma 2，用于应对各种多样化和具有细微差别的图像风格。

为了训练强大的图像安全模型，我们精心选择了自然图像和合成图像的训练数据集，并对 Gemma 3 进行了指令调优，使其展现出强大的性能。我们将安全政策与以下基准进行了比较，并将发布一份包含第三方基准的技术报告。

基于我们内部基准的最佳 F1 得分（百分比，数值越高越好）的评估结果

ShieldGemma 可在以下方面助力构建更安全的 AI 图像应用程序：

灵活性：上传任何合成图像或自然图像，并编辑我们的提示模板以适应您的需求。可在 Google Colab 或您自己的 GPU 上微调。

通用性：所有支持 Gemma 3 的工具都支持 ShieldGemma 2，包括 Transformers、JAX、Keras、Ollama 等热门框架。

协作共建：ShieldGemma 本质上是开放的，欢迎社区协作者继续参与包容性构建，携手推动行业安全标准发展和提升。

负责任地部署开放模型依赖于整个社区的努力。在不久的将来，我们期待推进 ShieldGemma 2 的体积缩减、覆盖更多的危害领域，并与多模态 ML Commons 分类系统对齐。

我们很高兴能够继续构建安全且负责任的多模态 AI！

立即开始体验吧

在我们的开发者网站上探索 ShieldGemma 2，并查看模型卡以了解更多信息。

可在 Google AI Studio、Hugging Face、Ollama 和其他平台上试用 ShieldGemma 2。

团队致谢

_{Wenjun Zeng、Ryan Mullins、Dana Kurniawan、Yuchi Liu、Mani Malek、Yiwen Song、Dirichi Ike-Njoku、Hamid Palangi、Jindong Gu、Shravan Dheep、Karthik Narashimhan、Tamoghna Saha、Joon Baek、Rick Pereira、Cai Xu、Jingjing Zhou、Aparna Joshi、Will Hawkins}