Google は、コラボレーションとオープンなリサーチの力がイノベーションを推進することを信じています。また、Gemma がリリースからわずか数か月で数百万回ダウンロードされ、コミュニティに受け入れられていることに感謝しています。
この熱狂的な反応は信じられないほど刺激的でした。デベロッパーの皆さんは、インド語派多言語バリアントである Navarasa や、オンデバイスのアクション モデルである Octopus v2 など、さまざまなプロジェクトを作成しています。それこそ、Gemma を使って身近で影響力がある AI ソリューションを作成できることを示すものです。
このような探究心と創造性は、強力なコード補完機能とコード生成機能を搭載した CodeGemma や、推論や研究の効率をアップできる可能性を持つ RecurrentGemma の開発にも役立ちました。
Link to Youtube Video (visible only when JS is disabled)
Gemma は最先端の軽量オープンモデル群で、Gemini モデルと同じリサーチとテクノロジーによって開発されています。本日は、強力でオープンな視覚言語モデル(VLM)である PaliGemma についてお知らせします。これにより、Gemma ファミリーがさらに拡大することになります。また、近日中に正式発表される予定の Gemma 2 について、少しだけ紹介します。さらに、Responsible Generative AI ツールキットのアップデートにより、責任ある AI への取り組みをさらに推進することもお知らせします。この新たなツールの強化によって、モデルの安全性評価や有害なコンテンツのフィルタリングを実現します。
PaliGemma は、PaLI-3 に触発された強力なオープン VLM です。PaliGemma は、SigLIP 視覚モデルや Gemma 言語モデルなどのオープン コンポーネントを基に開発され、幅広い視覚言語タスクでトップレベルのファイン チューニング性能を実現するように設計されています。たとえば、画像や短い動画のキャプション生成、視覚を使う必要がある質問への回答、画像内のテキストの理解、物体の検出やセグメンテーションといったタスクです。
トレーニング済みのチェックポイントとファイン チューニング済みのチェックポイントの両方を、複数の解像度で提供します。また、すぐに試してみることができるように、さまざまなタスクに合わせて特別にチューニングしたチェックポイントも提供しています。
オープンな試行や研究に活用できるように、PaliGemma はさまざまなプラットフォームやリソースを通して利用できます。今すぐ試したい方は、Kaggle や Colab ノートブックなどの無料オプションを利用できます。視覚言語研究の限界を押し広げようとしている学術研究者は、Google Cloud クレジットを申請して研究に活用することもできます。
さっそく PaliGemma を使ってみてください。PaliGemma は、GitHub、Hugging Face モデル、Kaggle、Vertex AI Model Garden、ai.nvidia.com(TensorRT-LLM アクセラレーション版)にあり、JAX や Hugging Face Transformers を使って簡単に組み込むことができます(Keras に組み込む方法は、近日中に公開する予定です)。こちらの Hugging Face Space からモデルを試してみることもできます。
次世代の Gemma モデル、Gemma 2 が近日中に登場することをお知らせします。Gemma 2 は新しいサイズで提供され、さまざまな AI デベロッパーのユースケースに対応できるようになります。また、まったく新しいアーキテクチャで開発され、画期的なパフォーマンスと効率性を実現できるように設計されており、以下のようなメリットがあります。
Gemma 2 の公式リリースは、今後数週間のうちに発表される予定です。ご注目ください!
このような状況を受けて、Responsible Generative AI ツールキットを拡張します。具体的には、デベロッパーが確実にモデルを評価できるように、LLM Comparator をオープンソースとして公開します。LLM Comparator はインタラクティブで視覚的な新ツールで、効果的なサイドバイサイド評価を行い、モデルの回答の品質と安全性を評価します。LLM Comparator の実際の動作を確認したい方は、Gemma 1.1 と Gemma 1.0 を比較したデモをご覧ください。
このツールキットの使命は、革新的であるだけでなく、安全で責任ある AI アプリケーションを作れるようにすることです。このツールによって、その実現にさらに近づくことを願っています。
私たちは、Gemma ファミリーのオープンモデルを拡大し続ける取り組みを通して、最先端の AI 技術と責任ある開発を両立させるコラボレーション環境を育もうとしています。このような新しいツールを使って皆さんが何を開発するのか、そして私たちとともにどのように AI の未来を作ることができるのか、楽しみにしています。