Memajukan batas pemahaman video dengan Gemini 2.5

9 MEI 2025
Anirudh Baddepudi Product Manager
Antoine Yang Research Scientist
Mario Lučić Research Scientist

Kami baru saja meluncurkan dua model baru dalam keluarga Gemini: Gemini 2.5 Pro Preview (06/05) dan Gemini 2.5 Flash (17/04). Model-model ini menandai lompatan besar dalam pemahaman video. Gemini 2.5 Pro mencapai performa mutakhir pada tolok ukur pemahaman video penting, melampaui model-model terkini seperti GPT 4.1 dalam kondisi pengujian yang sebanding (perintah dan frame video yang sama).

Lebih jauh lagi, Gemini 2.5 menyaingi model-model yang disesuaikan secara khusus pada beberapa tolok ukur yang menantang (misalnya: teks padat YouCook2 dan pengambilan momen QVHighlights). Untuk aplikasi yang sensitif terhadap biaya, Gemini 2.5 Flash menyediakan alternatif yang sangat kompetitif.

Advancing the frontier of video understanding with Gemini 2.5
Evaluasi Gemini 2.5 vs. model sebelumnya pada tolok ukur pemahaman video. Performa diukur berdasarkan akurasi pencocokan string untuk VideoQA pilihan ganda, akurasi berbasis LLM untuk EgoTempo, R1@0.5 untuk QVHighlights, dan CIDEr untuk YouCook2. *Video diproses pada 1fps dan disubsampel secara linier hingga maksimum 256 frame, kecuali untuk 1H-VideoQA (7200 frame).

Menggabungkan video dan kode dengan Gemini 2.5

Gemini 2.5 merupakan model multimoda native pertama yang dapat menggunakan informasi audio-visual secara mulus dengan kode dan format data lainnya. Untuk menggambarkan kekuatan kemampuan pemahaman video Gemini 2.5, kami tampilkan beberapa kasus penggunaan yang paling kami sukai di bawah ini.


Mengubah video menjadi aplikasi interaktif

Gemini 2.5 Pro membuka kemungkinan baru untuk mengubah video menjadi aplikasi interaktif. Video To Learning App, aplikasi pemula Google AI Studio, menggunakan Gemini 2.5 untuk membuat pembelajaran dari konten video lebih efektif dan menarik.

Pertama, model melihat URL YouTube beserta perintah teks yang menjelaskan cara menganalisis video. Gemini 2.5 Pro menganalisis video dan menyusun spesifikasi detail untuk aplikasi pembelajaran yang memperkuat ide-ide penting dalam video.

Spesifikasi yang dihasilkan kemudian dikirim kembali langsung ke Gemini 2.5 Pro untuk menghasilkan kode bagi aplikasi, seperti yang diilustrasikan dalam aplikasi simulator koreksi penglihatan di bawah ini. Gemini 2.5 Flash dapat mencapai hasil yang serupa, menawarkan sekilas kasus penggunaan video baru dalam domain seperti pendidikan dan pembuatan konten interaktif.

Video ke aplikasi interaktif di Google AI Studio

Membuat animasi dari video dengan p5.js

Gemini 2.5 Pro membuka kemungkinan kreatif yang menarik, seperti kemampuan untuk menghasilkan animasi dinamis dari video dengan satu perintah. Kemampuan ini membuka jalan baru untuk kasus penggunaan seperti pembuatan konten otomatis dan membuat ringkasan video yang mudah diakses.

Misalnya: saat diberikan video kami tentang Project Astra beserta perintah 'Buat animasi dalam p5.js yang mencakup berbagai bangunan penting yang terlihat dalam video ini.', Gemini 2.5 Pro menganalisis rekaman dan menghasilkan animasi p5.js yang sesuai. Animasi tersebut memvisualisasikan bangunan penting yang diidentifikasi oleh Gemini 2.5 Pro dalam urutan waktu yang sama seperti dalam video.

Video ke animasi p5.js dengan Gemini 2.5 Pro (lihat output lengkap di Google AI Studio)

Mengambil dan mendeskripsikan momen dari video

Gemini 2.5 Pro unggul dalam mengidentifikasi momen-momen tertentu dalam video menggunakan isyarat audio-visual dengan akurasi yang jauh lebih tinggi daripada sistem pemrosesan video sebelumnya. Misalnya, dalam video berdurasi 10 menit dari pidato pembukaan Google Cloud Next '25, sistem ini secara akurat mengidentifikasi 16 segmen berbeda yang terkait dengan presentasi produk, menggunakan isyarat audio dan visual dari video untuk melakukannya.

Pengambilan momen dengan Gemini 2.5 Pro (lihat output lengkap di Google AI Studio)

Penalaran temporal

Dengan kemampuan pengambilan momen yang canggih, Gemini 2.5 Pro juga mampu memecahkan masalah penalaran temporal yang bernuansa, seperti berhitung. Dalam contoh ini, Gemini berhasil menghitung 17 kejadian berbeda saat karakter utama menggunakan ponselnya dalam video Project Astra.

Penghitungan temporal dengan Gemini 2.5 Pro (lihat output lengkap di Google AI Studio)

Berkarya dengan pemahaman video Gemini 2.5

Pemahaman video di Gemini 2.5 Flash dan Pro tersedia di Google AI Studio, Gemini API, dan Vertex AI. Dukungan untuk video YouTube tersedia melalui Gemini API dan Google AI Studio, yang memungkinkan siapa saja untuk membuat aplikasi dengan akses ke miliaran video.

Gemini API kini menawarkan parameter resolusi media 'rendah' ​​yang memungkinkan Gemini 2.5 Pro memproses ~6 jam video dengan konteks 2 juta token. Ini memberikan pengaturan yang lebih hemat biaya dengan performa pemahaman video yang kompetitif (misalnya: akurasi 84,7% vs. 85,2% pada VideoMME) untuk banyak kasus penggunaan pemahaman video yang panjang.

Kami terinspirasi oleh aplikasi video inovatif yang telah muncul dari komunitas dan tidak sabar untuk melihat karya Anda!


Ucapan Terima kasih

Ucapan terima kasih sebesar-besarnya kepada Aaron Wade karena sudah membuat Video To Learning App dan untuk contoh simulator Koreksi Penglihatan yang ditampilkan dalam postingan blog.

Kami berterima kasih kepada Sergi Caelles, Boyu Wang, dan Saarthak Khanna atas kontribusinya pada evaluasi yang disajikan di atas, Angeliki Lazaridou atas inspirasi beberapa contoh demo, dan seluruh tim pemahaman video Gemini atas kerja keras yang berujung pada rilis ini. Terakhir, kami ingin mengucapkan terima kasih kepada para pemimpin pemahaman video Mario Lučić, Shuo-yiin Chang, dan Paul Natsev, dan pemahaman multimoda secara keseluruhan mengarah Jean-Baptiste Alayrac.