去年,我们发布了 ShieldGemma,这是一套基于 Gemma 2 构建的安全内容分类器模型,专门用于检测 AI 模型的文本输入和输出中的有害内容。随着今日 Gemma 3 的发布,我们很高兴能在 Responsible AI 基础上构建并推出 ShieldGemma 2。
Link to Youtube Video (visible only when JS is disabled)
ShieldGemma 2 是基于 Gemma 3 构建的 40 亿 (4B) 参数模型,可针对关键类别检查合成图像和自然图像的安全性,以帮助您构建强大的数据集和模型。借助这一 Gemma 系列模型的新成员,研究人员和开发者现在可以轻松降低其模型在关键危害领域出现有害内容的风险:
我们建议使用 ShieldGemma 2 作为视觉语言模型的输入过滤器,或作为图像生成系统的输出过滤器。ShieldGemma 可用于合成图像和自然图像。
除了文本之外,多模态模型中的图像安全性训练和理解也带来了新的挑战。正是出于这个原因,我们构建了 ShieldGemma 2,用于应对各种多样化和具有细微差别的图像风格。
为了训练强大的图像安全模型,我们精心选择了自然图像和合成图像的训练数据集,并对 Gemma 3 进行了指令调优,使其展现出强大的性能。我们将安全政策与以下基准进行了比较,并将发布一份包含第三方基准的技术报告。
负责任地部署开放模型依赖于整个社区的努力。在不久的将来,我们期待推进 ShieldGemma 2 的体积缩减、覆盖更多的危害领域,并与多模态 ML Commons 分类系统对齐。
我们很高兴能够继续构建安全且负责任的多模态 AI!
Wenjun Zeng、Ryan Mullins、Dana Kurniawan、Yuchi Liu、Mani Malek、Yiwen Song、Dirichi Ike-Njoku、Hamid Palangi、Jindong Gu、Shravan Dheep、Karthik Narashimhan、Tamoghna Saha、Joon Baek、Rick Pereira、Cai Xu、Jingjing Zhou、Aparna Joshi、Will Hawkins