PaliGemma、Gemma 2、アップグレード版 Responsible AI ツールキットのご紹介

2024年5月14日

Tris Warkentin Director, Product Management

Xiaohua Zhai Senior Staff Research Scientist

Ludovic Peran Product Manager

Google は、コラボレーションとオープンなリサーチの力がイノベーションを推進することを信じています。また、Gemma がリリースからわずか数か月で数百万回ダウンロードされ、コミュニティに受け入れられていることに感謝しています。

この熱狂的な反応は信じられないほど刺激的でした。デベロッパーの皆さんは、インド語派多言語バリアントである Navarasa や、オンデバイスのアクションモデルである Octopus v2 など、さまざまなプロジェクトを作成しています。それこそ、Gemma を使って身近で影響力がある AI ソリューションを作成できることを示すものです。

このような探究心と創造性は、強力なコード補完機能とコード生成機能を搭載した CodeGemma や、推論や研究の効率をアップできる可能性を持つ RecurrentGemma の開発にも役立ちました。

Link to Youtube Video (visible only when JS is disabled)

Gemma は最先端の軽量オープンモデル群で、Gemini モデルと同じリサーチとテクノロジーによって開発されています。本日は、強力でオープンな視覚言語モデル（VLM）である PaliGemma についてお知らせします。これにより、Gemma ファミリーがさらに拡大することになります。また、近日中に正式発表される予定の Gemma 2 について、少しだけ紹介します。さらに、Responsible Generative AI ツールキットのアップデートにより、責任ある AI への取り組みをさらに推進することもお知らせします。この新たなツールの強化によって、モデルの安全性評価や有害なコンテンツのフィルタリングを実現します。

PaliGemma の紹介: オープンな視覚言語モデル

PaliGemma は、PaLI-3 に触発された強力なオープン VLM です。PaliGemma は、SigLIP 視覚モデルや Gemma 言語モデルなどのオープンコンポーネントを基に開発され、幅広い視覚言語タスクでトップレベルのファインチューニング性能を実現するように設計されています。たとえば、画像や短い動画のキャプション生成、視覚を使う必要がある質問への回答、画像内のテキストの理解、物体の検出やセグメンテーションといったタスクです。

トレーニング済みのチェックポイントとファインチューニング済みのチェックポイントの両方を、複数の解像度で提供します。また、すぐに試してみることができるように、さまざまなタスクに合わせて特別にチューニングしたチェックポイントも提供しています。

オープンな試行や研究に活用できるように、PaliGemma はさまざまなプラットフォームやリソースを通して利用できます。今すぐ試したい方は、Kaggle や Colab ノートブックなどの無料オプションを利用できます。視覚言語研究の限界を押し広げようとしている学術研究者は、Google Cloud クレジットを申請して研究に活用することもできます。

さっそく PaliGemma を使ってみてください。PaliGemma は、GitHub、Hugging Face モデル、Kaggle、Vertex AI Model Garden、ai.nvidia.com（TensorRT-LLM アクセラレーション版）にあり、JAX や Hugging Face Transformers を使って簡単に組み込むことができます（Keras に組み込む方法は、近日中に公開する予定です）。こちらの Hugging Face Space からモデルを試してみることもできます。

Screenshot from the HuggingFace Space running PaliGemma showing an image of a cat wearing a tiny hat, with his head on stack of four pancakes

PaliGemma を実行している Hugging Face Space のスクリーンショット

Gemma 2 のお知らせ: 次世代のパフォーマンスと効率性

次世代の Gemma モデル、Gemma 2 が近日中に登場することをお知らせします。Gemma 2 は新しいサイズで提供され、さまざまな AI デベロッパーのユースケースに対応できるようになります。また、まったく新しいアーキテクチャで開発され、画期的なパフォーマンスと効率性を実現できるように設計されており、以下のようなメリットがあります。

トップクラスのパフォーマンス: Gemma 2 のパラメータ数は 270 億です。Llama 3 70B の半分以下のサイズで、それに匹敵するパフォーマンスを実現します。この画期的な効率性は、オープンモデルの新たなスタンダードとなります。

導入コストの削減: 効率的な設計の Gemma 2 は、同等のモデルの半分以下の計算で動作します。27B モデルは、NVIDIA の GPU で実行するように最適化されており、Vertex AI の 1 TPU ホストでも効率的に実行できます。つまり、費用対効果の高い形で導入し、さまざまなユーザーに利用してもらうことができます。

汎用性の高いチューニングツールチェーン: Gemma 2 は、さまざまなプラットフォームやツールのエコシステムで確実にチューニングできます。Google Cloud のようなクラウドベースのソリューションでも、Axolotl のような人気のコミュニティツールでも、Gemma 2 はこれまで以上に簡単にファインチューニングできます。さらに、私たちによる JAX や Keras との連携だけでなく、パートナーによる Hugging Face や NVIDIA TensorRT-LLM とのシームレスな連携に対応しているので、さまざまなハードウェア構成で効率的に導入し、パフォーマンスを最適化できます。

Gemma pre-trained model performance benchmarks

Gemma 2 は、まだ事前トレーニングの段階です。このグラフは、最新の Gemma 2 チェックポイントのパフォーマンスと、ベンチマークの事前トレーニング指標を示しています。出典: Hugging Face Open LLM Leaderboard（2024 年 4 月 22 日）および Grok のお知らせブログ

Gemma 2 の公式リリースは、今後数週間のうちに発表される予定です。ご注目ください！

Responsible Generative AI ツールキットの拡張

このような状況を受けて、Responsible Generative AI ツールキットを拡張します。具体的には、デベロッパーが確実にモデルを評価できるように、LLM Comparator をオープンソースとして公開します。LLM Comparator はインタラクティブで視覚的な新ツールで、効果的なサイドバイサイド評価を行い、モデルの回答の品質と安全性を評価します。LLM Comparator の実際の動作を確認したい方は、Gemma 1.1 と Gemma 1.0 を比較したデモをご覧ください。

screenshot showing a side by side evaluation in the LLM Comparator

このツールキットの使命は、革新的であるだけでなく、安全で責任ある AI アプリケーションを作れるようにすることです。このツールによって、その実現にさらに近づくことを願っています。

私たちは、Gemma ファミリーのオープンモデルを拡大し続ける取り組みを通して、最先端の AI 技術と責任ある開発を両立させるコラボレーション環境を育もうとしています。このような新しいツールを使って皆さんが何を開発するのか、そして私たちとともにどのように AI の未来を作ることができるのか、楽しみにしています。

投稿先: