PaliGemma 2 の紹介: パワフルな視覚言語モデル、シンプルなファインチューニング

2024年12月5日

Daniel Keysers Research Engineer

Andreas Steiner Staff Software Engineer

以前は、「見る」ことができる高度なカスタム AI の構築は、大量のリソースを必要とする複雑な作業でした。しかし、今はもう違います。今年 5 月、Gemma ファミリー最初の視覚言語モデル PaliGemma をリリースし、このクラス最高の視覚 AI を幅広く利用できるようにするための重要な一歩を踏み出しました。そして本日は、さらに進化したチューニング可能な視覚言語モデル、PaliGemma 2 を紹介します。

PaliGemma 2 は、高性能な Gemma 2 モデルをベースに視覚機能を追加して構築されており、パフォーマンスを強化できるファインチューニングも容易です。PaliGemma 2 モデルは、視覚入力を見て理解し、その入力とやりとりできるので、新たな可能性を開くことができます。

PaliGemma 2 の新機能

スケーラブルなパフォーマンス: PaliGemma 2 は、複数のモデルサイズ（3B、10B、28B パラメータ）と解像度（224px、448px、896px）に対応しているので、あらゆるタスクのパフォーマンスを最適化できます。

長文キャプション生成: PaliGemma 2 は、単純に物体を識別するだけでなく、場面に即した詳細な画像キャプションを生成できるので、場面のアクションや印象、全体的なストーリーを説明できます。

新たな領域への拡大: 私たちの研究は、化学式認識、楽譜認識、空間推論、胸部 X 線レポート生成でトップクラスのパフォーマンスを実証しています。詳しくは、テクニカルレポートをご覧ください。

既存の PaliGemma ユーザーは、PaliGemma 2 に簡単にアップグレードできます。置き換えるだけで動作するように設計され、さまざまなモデルサイズを提供しているので、ほとんどのタスクですぐにパフォーマンスが向上します。コードを大きく変更する必要はありません。また、柔軟性が高いので、特定のタスクやデータセットに対して簡単にファインチューニングでき、厳密なニーズに合わせて機能を調整できます。

パラメータや解像度を増やすべきタイミングなど、PaliGemma 2 の仕組みについて詳しく知りたい方は、テクニカルレポートをご覧ください。

PaliGemma の成功を活用する

リリース以来、Gemma ファミリーは急成長を遂げ、活気に満ちたエコシステム、Gemmaverse へと成長しています。そこには、数万のモデルとアプリケーションがあります。この急成長は、コミュニティの独創性を証明するものです。視覚ドキュメント検索における ColPali の進展、RoboFlow のファインチューニング手法、リアルタイム物体追跡の進歩など、PaliGemma を使ったイノベーションも登場し始めており、Gemmaverse の可能性の広がりを示しています。

さっそく使ってみましょう

PaliGemma 2 の可能性を探ってみたい方は、以下をお試しください。

モデルとコードをダウンロードする: 事前トレーニング済みモデルとコードは、Hugging Face と Kaggle で公開されています。

学習して組み込む: すべてを網羅したドキュメントやノートブックの例を見ながら、さっそく皆さんのプロジェクトにこの強力なツールを組み込んでみましょう。PaliGemma では、まずは推論ノートブックを確認してから、カスタムデータセットでファインチューニングしてみるとよいでしょう。

お好みのフレームワークを使う: Hugging Face Transformers、Keras、PyTorch、JAX、Gemma.cpp など、お好みのツールとフレームワークをお使いください。

皆さんが PaliGemma 2 で何を作るのか、とても楽しみです。活気に満ちた Gemma コミュニティに参加し、プロジェクトを Gemmaverse で共有して、AI の無限の可能性を一緒に探求しましょう。これらのモデルの未来を形作り、この領域のイノベーションを推進するためには、皆さんのフィードバックと貢献が欠かせません。