以前は、「見る」ことができる高度なカスタム AI の構築は、大量のリソースを必要とする複雑な作業でした。しかし、今はもう違います。今年 5 月、Gemma ファミリー最初の視覚言語モデル PaliGemma をリリースし、このクラス最高の視覚 AI を幅広く利用できるようにするための重要な一歩を踏み出しました。そして本日は、さらに進化したチューニング可能な視覚言語モデル、PaliGemma 2 を紹介します。
PaliGemma 2 は、高性能な Gemma 2 モデルをベースに視覚機能を追加して構築されており、パフォーマンスを強化できるファインチューニングも容易です。PaliGemma 2 モデルは、視覚入力を見て理解し、その入力とやりとりできるので、新たな可能性を開くことができます。
既存の PaliGemma ユーザーは、PaliGemma 2 に簡単にアップグレードできます。置き換えるだけで動作するように設計され、さまざまなモデルサイズを提供しているので、ほとんどのタスクですぐにパフォーマンスが向上します。コードを大きく変更する必要はありません。また、柔軟性が高いので、特定のタスクやデータセットに対して簡単にファインチューニングでき、厳密なニーズに合わせて機能を調整できます。
パラメータや解像度を増やすべきタイミングなど、PaliGemma 2 の仕組みについて詳しく知りたい方は、テクニカル レポートをご覧ください。
リリース以来、Gemma ファミリーは急成長を遂げ、活気に満ちたエコシステム、Gemmaverse へと成長しています。そこには、数万のモデルとアプリケーションがあります。この急成長は、コミュニティの独創性を証明するものです。視覚ドキュメント検索における ColPali の進展、RoboFlow のファインチューニング手法、リアルタイム物体追跡の進歩など、PaliGemma を使ったイノベーションも登場し始めており、Gemmaverse の可能性の広がりを示しています。
PaliGemma 2 の可能性を探ってみたい方は、以下をお試しください。
皆さんが PaliGemma 2 で何を作るのか、とても楽しみです。活気に満ちた Gemma コミュニティに参加し、プロジェクトを Gemmaverse で共有して、AI の無限の可能性を一緒に探求しましょう。これらのモデルの未来を形作り、この領域のイノベーションを推進するためには、皆さんのフィードバックと貢献が欠かせません。