Gemma 3 の紹介: デベロッパーガイド

2025年3月12日

Omar Sanseviero Staff Developer Relations Engineer

Philipp Schmid Developer Relations Engineer

Gemma モデルは、最初のリリース以来、1 億回以上ダウンロードされており、コミュニティではあらゆる種類のユースケースに対して、6 万以上のバリエーションが作成されています。以前の Gemma リリースの成功を踏まえて、Gemma オープンモデルファミリーで最も機能的で高度なバージョンである Gemma 3 を紹介します。コミュニティからのフィードバックに耳を傾け、コンテキスト長の増加、マルチモダリティなど、特にリクエストが多かった機能を追加しています。

Gemma の新機能

Link to Youtube Video (visible only when JS is disabled)

Gemma 3 はマルチモダリティを導入し、視覚言語入力とテキスト出力をサポートしています。最大 128k トークンのコンテキストウィンドウを処理し、140 以上の言語を理解するほか、数学、推論、チャット機能が向上し、構造化出力や関数呼び出しにも対応しています。Gemma 3 では、独自のユースケースやドメインに合わせてファインチューニングできる事前トレーニング済みモデルと、汎用インストラクションチューニングバージョンの両方が、4 つのサイズ（1B、4B、12B、27B）で利用できます。

Gemma の開発手法

Gemma の事前トレーニングと事後トレーニングのプロセスは、蒸留、強化学習、モデルマージの組み合わせによって最適化されています。このアプローチにより、数学、コーディング、そして命令に従う能力が向上します。Gemma 3 では、140 を超える言語で多言語サポートを向上させるため、新しいトークナイザーを導入しています。Google TPU で JAX フレームワークを使い、1B では 2T トークン、4B では 4T トークン、12B では 12T トークン、27B では 14T トークンでトレーニングしました。

Gemma 3 は、次の 4 つの事後トレーニングコンポーネントを利用しています。

大きな instruct モデルから Gemma 3 のトレーニング済みチェックポイントへの蒸留。

人間のフィードバックによる強化学習（RLHF）により、モデルの予測を人間の好みに合わせる。

機械のフィードバックによる強化学習（RLMF）により、機械的推論能力を強化する。

実行フィードバックによる強化学習（RLEF）により、コーディング能力を向上させる。

このようなアップデートにより、モデルの数学、コーディング、そして命令に従う機能が大幅に改善された結果、LMArena でスコア 1338 を獲得し、最上位のオープンコンパクトモデルになりました。

Graph showing a comparison of Model performance v. Size

Gemma 3 の instruct バージョンでは、Gemma 2 と同じ会話形式が使われるため、テキストのみの入力の場合は、ツールを更新しなくても最新バージョンに更新できます。画像入力の場合は、テキストと画像の両方を指定できます。

マルチターンテキストの例

<bos><start_of_turn>user
knock knock<end_of_turn>
<start_of_turn>model
who is there<end_of_turn>
<start_of_turn>user
Gemma<end_of_turn>
<start_of_turn>model
Gemma who?<end_of_turn>

Markdown

画像を混ぜた例

<bos><start_of_turn>user
Image A: <start_of_image>
Image B: <start_of_image>
 
Label A: water lily
Label B:<end_of_turn>
<start_of_turn>model
Desert rote<end_of_turn>

Markdown

マルチモダリティ

Gemma 3 には、SigLIP をベースにした視覚エンコーダが内蔵されています。Gemma 3 の視覚モデルは、トレーニング中は凍結され、複数のサイズ（4B、12B、27B）で同じものが使われています。そのため、Gemma は画像や動画を入力として使用し、画像の分析、画像に関する質問への回答、画像の比較、物体の識別、さらには画像内テキストについての返信を行えるようになっています。このモデルは、もともと 896x896 ピクセルの画像で動作するように作成されたものですが、Gemma 3 では新しいアダプティブウィンドウアルゴリズムを使って入力画像を分割することで、高解像度の非正方形画像で動作できるようになっています。

入力: 暖まりたいのですが、暖房を入れるボタンはどれですか？

画像によると、暖房を入れると思われるボタンは「暖房」です。「暖房」は「heating」を意味する日本語です。このボタンを押すことで、このエアコン / 空調システムの暖房機能が起動するはずです。暖房モードを選択してからプラス記号（+）のボタンを押すと、温度を調整できるでしょう。

ShieldGemma 2

ShieldGemma 2 は、Gemma 3 をベースに開発された 4B 画像安全分類モデルです。主要な安全カテゴリのラベルを出力することで、合成画像（画像生成モデルによるもの）と自然画像（Gemma 3 などの視覚言語モデルの入力フィルタとして利用可能）の安全性モデレーションを行います。ShieldGemma 2 の詳細については、こちらをご覧ください。

皆様は何を作ろうとお考えですか？　

Gemma コミュニティの独創性と Gemmaverse の爆発的な成長には、いつも驚かされています。リファレンスモデルなしで人間の好みに合わせて直接最適化する SimPO 法を開発した Princeton NLP や、ブルガリア語向けの最先端の LLM をトレーニングした INSAIT など、新しいファインチューニング手法を開拓した研究所もあれば、Nexa AI が OmniAudio で行ったように、まったく新しいモダリティで Gemma をトレーニングしたデベロッパーもいます。次にどのようなブレークスルーが実現されるのか、楽しみです。