Memperkenalkan PaliGemma 2: Model Visi-Bahasa yang Kuat, Penyempurnaan Sederhana

DES 05, 2024
Daniel Keysers Research Engineer
Andreas Steiner Staff Software Engineer

Membangun AI tingkat lanjut khusus yang bisa “melihat” dahulu merupakan upaya yang kompleks dan membutuhkan banyak sumber daya. Kini tidak lagi. Pada bulan Mei lalu, kami meluncurkan PaliGemma, model visi-bahasa pertama dalam rangkaian produk Gemma, yang mengambil langkah signifikan untuk membuat AI visual terbaik di kelasnya menjadi lebih mudah diakses. Sekarang, kami sangat senang dapat memperkenalkan PaliGemma 2, evolusi berikutnya dalam model visi-bahasa yang dapat disesuaikan.

PaliGemma 2 dibangun di atas model Gemma 2 yang berkinerja tinggi, menambahkan kekuatan visi dan mempermudah penyempurnaan untuk performa yang luar biasa. Dengan PaliGemma 2, model ini bisa melihat, memahami, dan berinteraksi dengan input visual, membuka dunia dengan berbagai kemungkinan baru.


Apa yang baru di PaliGemma 2?

  • Performa skalabel: Optimalkan performa untuk tugas apa pun dengan berbagai ukuran model PaliGemma 2 (parameter 3B, 10B, 28B) dan resolusi (224 piksel, 448 piksel, 896 piksel).

  • Pembuatan teks panjang: PaliGemma 2 menghasilkan teks gambar yang terperinci dan relevan secara kontekstual, tidak sekadar mengidentifikasi objek sederhana untuk mendeskripsikan tindakan, emosi, dan narasi adegan secara keseluruhan.

  • Memperluas ke cakrawala baru: Penelitian kami menunjukkan performa terdepan dalam hal pengenalan rumus kimia, pengenalan skor musik, penalaran spasial, dan pembuatan laporan rontgen dada, seperti yang diuraikan dalam laporan teknis.

Melakukan upgrade ke PaliGemma 2 sangatlah mudah bagi pengguna PaliGemma lama. Produk ini dirancang sebagai pengganti langsung, menawarkan berbagai ukuran model dengan peningkatan performa langsung pada sebagian besar tugas tanpa perlu merombak kode. Selain itu, fleksibilitasnya membuat penyempurnaan untuk tugas dan set data tertentu begitu mudah, memungkinkan Anda untuk menyesuaikan kemampuannya dengan kebutuhan Anda.

Anda bisa mempelajari lebih lanjut tentang cara kerja PaliGemma 2, termasuk kapan harus menggunakan lebih banyak parameter dan resolusi yang lebih besar, dalam laporan teknis kami.


Membangun mengikuti keberhasilan PaliGemma

Sejak diluncurkan, rangkaian produk Gemma telah berkembang pesat menjadi ekosistem yang dinamis—Gemmaverse—dengan puluhan ribu model dan aplikasi. Pertumbuhan yang cepat ini merupakan bukti kecerdasan komunitas. Inovasi awal yang menggunakan PaliGemma, seperti kemajuan ColPali dalam pengambilan dokumen visual, teknik penyempurnaan RoboFlow, dan progres dalam pelacakan objek secara real-time, menunjukkan potensi Gemmaverse yang semakin besar.


Mulai sekarang

Siap menjelajahi potensi PaliGemma 2? Begini caranya:


Kami sangat antusias menantikan kreasi yang akan Anda buat dengan PaliGemma 2. Bergabunglah dengan komunitas Gemma yang dinamis, bagikan project Anda ke Gemmaverse, dan mari bersama-sama terus mengeksplorasi potensi AI yang tak terbatas. Masukan dan kontribusi Anda sangatlah berharga dalam membentuk masa depan model dan mendorong inovasi di bidang ini.