安全なマルチモーダル: Gemma で責任ある AI を実現する

2025年3月12日

Dana Kurniawan Product Manager

Wenjun Zeng Software Engineer

Ryan Mullins Software Engineer

昨年リリースした ShieldGemma は、安全コンテンツ分類モデルのスイートです。Gemma 2 をベースに開発されており、AI モデルのテキスト入出力から有害なコンテンツを検出するように設計されています。本日は、Gemma 3 のデビューに合わせて、ShieldGemma 2 を発表します。これは、責任ある AI の基盤を強化することにつながります。

Link to Youtube Video (visible only when JS is disabled)

ShieldGemma 2 は、Gemma 3 をベースとした 40 億（4B）パラメータのモデルです。主要なカテゴリに対して合成画像や自然画像の安全性をチェックできるので、堅牢なデータセットやモデルを作成する際に役立ちます。Gemma ファミリーにこのモデルが追加されたことで、研究者やデベロッパーは次のような主要な有害領域において、有害なコンテンツによるリスクを簡単に最小化できます。

性的に露骨な表現

危険なコンテンツ

暴力

Use ShieldGemma as an input filter to any vision language model, or an an output filter of image generation models

ShieldGemma 2 を視覚言語モデルの入力フィルタ、または画像生成システムの出力フィルタとして使うことをおすすめします。合成画像と自然画像の両方で利用できます。

ShieldGemma 2 の特徴

テキストだけでなく、マルチモーダルモデルでの画像の安全性をトレーニングして理解しようとすると、新しい課題に直面することになります。ShieldGemma 2 が微妙な意味合いを含むさまざまなスタイルの画像に対応できるように作られているのは、そのためです。

堅牢な画像安全性モデルをトレーニングするため、自然画像と合成画像のトレーニングデータセットを慎重に準備し、Gemma 3 をインストラクションチューニングすることで強力なパフォーマンスを実現しました。安全ポリシーを次のベンチマークと比較したほか、サードパーティのベンチマークも組み込んだテクニカルレポートも公開予定です。

内部ベンチマークの最大 F1 スコアに基づく評価結果（%、高いほどよい）

ShieldGemma は、次のような点で安全な AI 画像アプリケーションの開発に役立ちます。

柔軟性: 合成画像や自然画像をアップロードし、ニーズに合わせてプロンプトテンプレートを編集できます。Google Colab や独自の GPU によるファインチューニングも可能です。

汎用性: ShieldGemma 2 は、Transformers、JAX、Keras、Ollama などの人気のフレームワークを始めとして、Gemma 3 をサポートするすべてのツールでサポートされています。

コラボレーション: ShieldGemma は本質的にオープンです。業界の安全基準を前進させるため、コミュニティの協力者が包括的に開発し続けることを歓迎します。

責任ある形でオープンモデルを導入できるかどうかは、コミュニティ全体の努力次第です。ShieldGemma 2 がさらに小さなサイズで多くの有害領域に対応できるようになることを楽しみにしています。近い将来には、マルチモーダル ML コモンズ分類法とも一致させる予定です。

安全で責任あるマルチモーダル AI の開発が続くことが楽しみです。

さっそく使ってみましょう

デベロッパーサイトで ShieldGemma 2 をご覧ください。モデルカードでも詳細を確認できます。

ShieldGemma 2 は、Google AI Studio、Hugging Face、Ollama などのプラットフォームで試すことができます。

チームの謝辞

_{Wenjun Zeng、Ryan Mullins、Dana Kurniawan、Yuchi Liu、Mani Malek、Yiwen Song、Dirichi Ike-Njoku、Hamid Palangi、Jindong Gu、Shravan Dheep、Karthik Narashimhan、Tamoghna Saha、Joon Baek、Rick Pereira、Cai Xu、Jingjing Zhou、Aparna Joshi、Will Hawkins}