昨年 12 月、Gemma ファミリーの視覚言語モデルをアップグレードした PaliGemma 2 をリリースしました。このリリースには、いくつかのサイズ(3B、10B、28B パラメータ)のトレーニング済みチェックポイントが含まれており、画像セグメンテーション、短い動画のキャプション付け、科学的な質問への回答、高性能のテキスト関連タスクなど、幅広い視覚言語のタスクやドメインで簡単にファインチューニングできます。
本日は、新たな PaliGemma 2 mix チェックポイントのリリースについてお知らせします。PaliGemma 2 mix は、さまざまなタスク向けにチューニングしたモデルです。モデルの機能を直接確認することも、一般的なユースケースにすぐに活用することもできます。
すでにオリジナルの PaliGemma mix チェックポイントを使っている方は、直接 PaliGemma 2 にアップグレードでき、変更を加える必要はありません。モデルは、プロンプトに応じてさまざまなタスクを実行します。公式ドキュメントでさまざまなプロンプト タスクの構文を確認しましょう。PaliGemma 2 の開発手法についての詳細は、テクニカル レポートをご覧ください。
結果:
結果:
結果:
結果:
結果:
結果: beach
結果: a cow standing on a beach next to a sign that says warning dangerous rip current.
光学式文字認識(OCR)
結果:
WARNING
DANGEROUS
RIP CURRENT
結果:
結果:
結果: A cow standing on a beach next to a warning sign.
結果:
WARNING DANGEROUS
RIP CURRENT
PaliGemma 2 の可能性を試してみたい方は、以下の方法で mix モデルの機能を確認できます。
PaliGemma 2 mix は複数のタスクで強力なパフォーマンスを発揮しますが、独自のタスクやドメインでファインチューニングすると、最良の結果を得ることができます。その方法については、総合ドキュメントをご覧ください。Keras と JAX の公式サンプル ノートブックや、Hugging Face transformers の例も確認できます。皆さんの作品を見るのを楽しみにしています!