Memperkenalkan PaliGemma, Gemma 2, dan Upgrade Toolkit AI yang Bertanggung Jawab

MEI 14, 2024
Tris Warkentin Director, Product Management
Xiaohua Zhai Senior Staff Research Scientist
Ludovic Peran Product Manager

Di Google, kami percaya pada kekuatan kolaborasi dan penelitian terbuka untuk mendorong inovasi, dan kami bersyukur melihat Gemma diterima oleh komunitas dengan jutaan download dalam waktu beberapa bulan setelah peluncurannya.

Sambutan yang antusias ini sangat menginspirasi, karena developer telah menciptakan beragam project seperti Navarasa, varian multibahasa untuk bahasa Indic, hingga Octopus v2, sebuah model tindakan di perangkat, developer menunjukkan potensi Gemma untuk menciptakan solusi AI yang berdampak dan mudah diakses.

Semangat eksplorasi dan kreativitas ini juga mendorong pengembangan CodeGemma, dengan kemampuan pembuatan dan pelengkapan kode yang kuat, dan RecurrentGemma, yang menawarkan kemungkinan inferensi dan penelitian yang efisien.

Link to Youtube Video (visible only when JS is disabled)

Gemma adalah keluarga model terbuka yang ringan dan canggih yang dibangun dari penelitian dan teknologi yang sama seperti yang digunakan untuk membuat model Gemini. Hari ini, kami sangat senang dapat semakin memperluas keluarga Gemma dengan memperkenalkan PaliGemma, model visi-bahasa (VLM) terbuka yang kuat, dan mengintip ke masa depan dengan pengumuman Gemma 2. Selain itu, kami melanjutkan komitmen kami terhadap AI yang bertanggung jawab dengan update untuk Toolkit AI Generatif yang Bertanggung Jawab, yang menyediakan alat baru dan disempurnakan bagi developer untuk mengevaluasi keamanan model dan memfilter konten berbahaya.


Memperkenalkan PaliGemma: Model Visi-Bahasa Terbuka

PaliGemma adalah VLM terbuka yang kuat yang terinspirasi oleh PaLI-3. Dibangun di atas komponen terbuka termasuk model visi SigLIP dan model bahasa Gemma, PaliGemma dirancang untuk performa terbaik di kelasnya dalam berbagai tugas visi-bahasa. Ini termasuk teks gambar dan video pendek, menjawab pertanyaan visual, memahami teks dalam gambar, deteksi objek, dan segmentasi objek.

Kami menyediakan titik pemeriksaan yang telah dilatih dan disesuaikan dengan berbagai resolusi, serta titik pemeriksaan yang secara khusus disesuaikan untuk berbagai tugas guna eksplorasi langsung.

Untuk memfasilitasi eksplorasi dan penelitian terbuka, PaliGemma tersedia melalui berbagai platform dan sumber daya. Mulailah menjelajah hari ini dengan opsi gratis seperti notebook Colab dan Kaggle. Peneliti akademis yang ingin mendorong batas-batas penelitian visi-bahasa juga dapat mengajukan kredit Google Cloud untuk mendukung pekerjaan mereka.

Mulai dengan PaliGemma sekarang. Anda bisa menemukan PaliGemma di GitHub, model Hugging Face, Kaggle, Vertex AI Model Garden, dan ai.nvidia.com (dipercepat dengan TensoRT-LLM) dengan integrasi yang mudah melalui JAX dan Hugging Face Transformers. (Integrasi Keras akan segera hadir) Anda juga dapat berinteraksi dengan model melalui Hugging Face Space ini.

Screenshot from the HuggingFace Space running PaliGemma showing an image of a cat wearing a tiny hat, with his head on stack of four pancakes
Screenshot dari HuggingFace Space yang menjalankan PaliGemma

Pengumuman Gemma 2: Performa dan Efisiensi Generasi Berikutnya

Kami sangat senang bisa mengumumkan kehadiran Gemma 2, model Gemma generasi berikutnya. Gemma 2 akan tersedia dalam ukuran baru untuk berbagai kasus penggunaan developer AI dan menampilkan arsitektur baru yang dirancang untuk terobosan performa dan efisiensi, yang menawarkan berbagai manfaat seperti:

  • Performa Terbaik di Kelasnya: Dengan 27 miliar parameter, Gemma 2 memberikan performa yang sebanding dengan Llama 3 70B dengan ukuran kurang dari setengahnya. Efisiensi terobosan ini menetapkan standar baru dalam lanskap model terbuka.

  • Mengurangi Biaya Deployment: Desain Gemma 2 yang efisien memungkinkannya untuk dimuat dalam kurang dari setengah kapasitas komputasi dibandingkan model yang setara. Model 27B dioptimalkan untuk berjalan pada GPU NVIDIA atau bisa berjalan secara efisien pada satu host TPU di Vertex AI, membuat deployment semakin mudah diakses dan hemat biaya untuk lebih banyak pengguna.

  • Toolchain Penyetelan Serbaguna: Gemma 2 akan memberikan kemampuan penyetelan yang kuat kepada developer di berbagai ekosistem platform dan alat. Dari solusi berbasis cloud seperti Google Cloud hingga alat komunitas populer seperti Axolotl, menyesuaikan Gemma 2 akan semakin mudah. Selain itu, integrasi mitra yang mulus dengan Hugging Face dan NVIDIA TensorRT-LLM, bersama dengan JAX dan Keras kami, memastikan Anda bisa mengoptimalkan performa dan menerapkannya secara efisien di beragam konfigurasi hardware.
Gemma pre-trained model performance benchmarks
Gemma 2 masih dalam tahap prapelatihan. Bagan ini menunjukkan performa dari checkpoint Gemma 2 terbaru bersama dengan metrik prapelatihan tolok ukur. Sumber: Papan Peringkat LLM Terbuka Hugging Face (22 April 2024) dan blog pengumuman Grok

Nantikan peluncuran resmi Gemma 2 dalam beberapa minggu mendatang!


Memperluas Toolkit AI Generatif yang Bertanggung Jawab

Untuk alasan ini, kami memperluas Toolkit AI Generatif yang Bertanggung Jawab untuk membantu developer melakukan evaluasi model yang lebih kuat dengan merilis LLM Comparator dalam bentuk open source. LLM Comparator adalah alat interaktif dan visual baru untuk melakukan evaluasi yang efektif secara berdampingan untuk menilai kualitas dan keamanan respons model. Untuk melihat aksi LLM Comparator, jelajahi demo kami yang menunjukkan perbandingan antara Gemma 1.1 dan Gemma 1.0.

screenshot showing a side by side evaluation in the LLM Comparator

Kami berharap alat ini akan memajukan misi toolkit ini untuk membantu developer menciptakan aplikasi AI yang tidak hanya inovatif tetapi juga aman dan bertanggung jawab.

Sembari kami terus memperluas keluarga model terbuka Gemma, kami tetap berdedikasi untuk menciptakan lingkungan kolaboratif di mana teknologi AI yang canggih dan pengembangan yang bertanggung jawab berjalan seiring. Kami sangat antusias melihat kreasi yang akan Anda buat dengan alat baru ini dan bagaimana kita bisa bersama-sama membentuk masa depan AI.