Memperkenalkan PaliGemma 2 mix: Model visi-bahasa untuk berbagai tugas

FEB 19, 2025
Omar Sanseviero Staff Developer Relations Engineer
Andreas Steiner Staff Software Engineer

Pada bulan Desember lalu, kami meluncurkan PaliGemma 2, model visi-bahasa yang telah di-upgrade dalam rangkaian produk Gemma. Rilis ini menyertakan checkpoint yang telah dilatih sebelumnya dengan berbagai ukuran (parameter 3B, 10B, dan 28B) yang bisa secara mudah disesuaikan dengan berbagai tugas dan domain visi-bahasa, seperti segmentasi gambar, pemberian teks video pendek, menjawab pertanyaan ilmiah, dan tugas terkait teks dengan performa tinggi.

Sekarang, kami sangat antusias dapat mengumumkan peluncuran checkpoint PaliGemma 2 mix. PaliGemma 2 mix adalah model yang diatur untuk campuran tugas yang memungkinkan Anda secara langsung mengeksplorasi kemampuan model dan menggunakannya secara langsung untuk kasus penggunaan umum.


Apa yang baru di PaliGemma 2 mix?

  • Beberapa tugas dengan satu model: PaliGemma 2 mix bisa menyelesaikan tugas seperti pemberian teks pendek dan panjang, pengenalan karakter optik (OCR), menjawab pertanyaan terkait gambar, deteksi objek, dan segmentasi.

  • Ukuran yang ramah developer: Gunakan model terbaik untuk kebutuhan Anda karena tersedia berbagai ukuran model (parameter 3B, 10B, dan 28B) serta resolusi (224px dan 448px).

Jika Anda sudah menggunakan checkpoint PaliGemma mix asli, Anda bisa langsung melakukan upgrade ke PaliGemma 2 tanpa perlu melakukan perubahan apa pun. Model ini melakukan tugas yang berbeda tergantung pada bagaimana permintaannya. Anda bisa meninjau sintaksis tugas prompt yang berbeda dalam dokumentasi resmi dan mempelajari lebih lanjut tentang cara pengembangan PaliGemma 2 dalam laporan teknis kami.


Deteksi

  • Tugas: Deteksi (PaliGemma-2-3b-mix-224)
  • Input: "detect android\n"
Input - "detect android\n"

Result:

Result in PaliGemma 2 Mix: A large, green Android figure stands on a white platform, enclosed by a red box. The word "android" is written in red above the figure.

Deteksi Multi Objek

  • Tugas: Deteksi Multi Objek (PaliGemma-2-3b-mix-224)
  • Input: “detect chair ; table\n”
Multiple object detection of items in a dining room

Result:

A wooden table and chair are in the foreground. Additional tables and chairs can be seen in the background within a room with a bee patterned wall and wooden floors. Labeled boxes highlight the furniture with the text "table" and "chair."
  • Tugas: Deteksi Multi Objek (PaliGemma-2-3b-mix-224)
  • Input - "detect food ; plate ; bowl\n"
Plates and bowls of food on a wooden table

Result:

Plates and bowls of food on a wooden table labeled with boxes that accurately identify "plate", "bowl" and "food"

Pengenalan Karakter Optik (OCR)

  • Tugas: Deteksi Multi Objek (PaliGemma-2-3b-mix-224)
  • Input - "ocr\n"
Lighting labels in Japanese kanji

Result:

Japanese Kanji reads: Downlight, Dining Room, Kitchen, Living Room, Bathroom/Dressing Room]

Segmentasi

  • Tugas: Segmentasi (PaliGemma-2-3b-mix-224) [Gambar dibuat oleh ImageFX]
  • Input - "segment cat\n"
Image of a cat looking at the camera behind a wooden sign that reads 'Hello PaliGemma 2' generated by ImageFX

Result:

highlighted image of a cat looking at the camera behind a wooden sign that reads 'Hello PaliGemma 2' generated by ImageFX

Menjawab Pertanyaan

  • Tugas: Menjawab Pertanyaan (PaliGemma2-mix-3b-448) [Gambar dibuat oleh ImageFX]
  • Input: “answer en where is the cow standing?\n"
A cow standing on the beach next to a yellow sign that reads 'Warning Dangerous Rip Current' with an illustration of a large wave breaking.

Result: beach


Pemberian Teks

  • Input: “caption en\n”
A cow standing on the beach next to a yellow sign that reads 'Warning Dangerous Rip Current' with an illustration of a large wave breaking.

Result: a cow standing on a beach next to a sign that says warning dangerous rip current.


Pengenalan Karakter Optik (OCR)

A cow standing on the beach next to a yellow sign that reads 'Warning Dangerous Rip Current' with an illustration of a large wave breaking.

Result:

WARNING

DANGEROUS

RIP CURRENT


Deteksi

  • Input: “detect cow\n”
A cow standing on the beach next to a yellow sign that reads 'Warning Dangerous Rip Current' with an illustration of a large wave breaking.

Result:

A cow standing on the beach next to a yellow sign that reads 'Warning Dangerous Rip Current' with an illustration of a large wave breaking. A red box outlines the cow, with a label that reads "cow"

Segmentasi

  • Input: “segment cow\n”
A cow standing on the beach next to a yellow sign that reads 'Warning Dangerous Rip Current' with an illustration of a large wave breaking.

Result:

A highlighted cow standing on the beach next to a yellow sign that reads 'Warning Dangerous Rip Current' with an illustration of a large wave breaking.

Pemberian Teks

  • Tugas: Pemberian Teks (PaliGemma 2-mix-10b-448)
  • Input: “caption en\n”
A cow standing on the beach next to a yellow sign that reads 'Warning Dangerous Rip Current' with an illustration of a large wave breaking.

Result: A cow standing on a beach next to a warning sign.

Pengenalan Karakter Optik (OCR)

  • Tugas: "ocr\n"
A cow standing on the beach next to a yellow sign that reads 'Warning Dangerous Rip Current' with an illustration of a large wave breaking.

Result:

WARNING DANGEROUS

RIP CURRENT


Mulai Sekarang

Siap menemukan potensi PaliGemma 2? Berikut ini adalah cara menjelajahi kemampuan model campuran:

  • Cobalah model campuran dengan beberapa klik: Jelajahi kemampuan model campuran secara langsung pada demo Hugging Face.

  • Pelajari cara menjalankan model: Cobalah notebook inferensi Keras secara langsung di Google Colab atau secara lokal.

  • Deploy dan atur dengan beberapa klik: Gunakan PaliGemma 2 mix secara langsung dalam Vertex Model Garden.


Meskipun PaliGemma 2 mix memiliki performa yang kuat dalam berbagai tugas, Anda akan mendapatkan hasil terbaik dengan menyesuaikan PaliGemma 2 dalam tugas atau domain Anda sendiri. Untuk mempelajari cara melakukannya, pelajari dokumentasi komprehensif kami, lihat notebook contoh resmi kami untuk Keras dan JAX, atau gunakan contoh Hugging Face Transformers. Kami sangat menantikan kreasi yang akan Anda bangun dengan PaliGemma 2 mix!