Segmentasi gambar berbasis percakapan dengan Gemini 2.5

21 JULI 2025
Paul Voigtlaender Research Scientist
Valentin Gabeur Research Scientist
Rohan Doshi Product Manager

Cara AI memahami gambar secara visual telah berkembang pesat. Awalnya, AI dapat menunjukkan “di mana” suatu objek berada menggunakan kotak pembatas. Kemudian, model segmentasi muncul, menggambarkan bentuk objek dengan presisi. Baru-baru ini, model open-vocabulary mulai digunakan, yang memungkinkan kita melakukan segmentasi objek menggunakan label yang kurang umum seperti “sepatu ski biru” atau “xilofon” tanpa memerlukan daftar kategori yang telah ditetapkan sebelumnya.

Model sebelumnya mencocokkan piksel dengan kata benda. Namun, tantangan sesungguhnya — segmentasi gambar berbasis percakapan (yang erat kaitannya dengan segmentasi ekspresi referensial dalam literatur) — membutuhkan pemahaman yang lebih mendalam: mengurai frasa deskriptif yang kompleks. Alih-alih hanya mengidentifikasi “mobil,” bagaimana jika kita bisa mengidentifikasi “mobil yang paling jauh?”

Saat ini, pemahaman visual lanjutan Gemini menghadirkan level baru dalam segmentasi gambar berbasis percakapan. Gemini sekarang “memahami” apa yang ingin Anda “lihat”.


Memanfaatkan kueri segmentasi gambar berbasis percakapan

Keajaiban fitur ini terletak pada jenis pertanyaan yang bisa Anda ajukan. Dengan beralih dari label satu kata sederhana, Anda dapat membuka cara yang lebih intuitif dan kuat untuk berinteraksi dengan data visual. Pertimbangkan 5 kategori kueri di bawah ini.


1. Hubungan objek

Gemini sekarang bisa mengidentifikasi objek berdasarkan hubungan kompleks mereka dengan objek di sekitarnya.

1: Pemahaman relasional: "the person holding the umbrella"

2: Pengurutan: "the third book from the left"

3: Atribut komparatif: "the most wilted flower in the bouquet"

2. Logika bersyarat

Terkadang Anda perlu membuat kueri dengan logika bersyarat. Misalnya, Anda bisa memfilter dengan kueri seperti "food that is vegetarian". - Gemini juga mampu memproses kueri yang mengandung negasi "the people who are not sitting".

Within an office meeting, the natural language query "the people who are not sitting" is used to overlay segmentation masks on the two individuals who are standing.

3. Konsep abstrak

Di sinilah pengetahuan dunia Gemini bersinar. Anda bisa memintanya untuk mengelompokkan hal-hal yang tidak memiliki definisi visual yang sederhana dan tetap. Ini termasuk konsep seperti "kerusakan", "kekacauan", atau "peluang".

On a kitchen counter, a natural language segmentation overlay highlights a spill in response to the abstract query, "area that should be cleaned up".

4. Teks dalam gambar

Ketika tampilan saja tidak cukup untuk membedakan kategori sebuah objek secara tepat, pengguna mungkin merujuknya melalui label teks tertulis yang ada dalam gambar. Hal ini memerlukan kemampuan OCR untuk model, salah satu kekuatan Gemini 2.5.

In a bakery setting, the model uses natural language segmentation to overlay masks on "the pistachio baklava" , distinguishing it from other nearby pastries based on in-image text.

5. Label multi-bahasa

Gemini tidak terbatas pada satu bahasa dan bisa menangani label dalam berbagai bahasa.

A plate of food has natural language segmentation overlays identifying various components, with the model providing corresponding labels in French as requested by the prompt "tous les objects en français".

Segmentasi gambar berbasis percakapan dalam tindakan

Mari kita jelajahi bagaimana tipe kueri ini bisa memungkinkan kasus penggunaan baru.


1. Membuka kreativitas: Pengeditan media interaktif

Kemampuan ini mentransformasi alur kerja kreatif. Alih-alih menggunakan alat pemilihan yang rumit, desainer kini bisa mengarahkan software dengan kata-kata. Ini memungkinkan proses yang lebih lancar dan intuitif, seperti saat meminta untuk memilih "the shadow cast by the building".

An aerial view of a park demonstrates a natural language segmentation overlay identifying "the shadow of the building".

2. Membangun dunia yang lebih aman: Pemantauan cerdas terhadap keselamatan & kepatuhan

Untuk keselamatan di tempat kerja, Anda perlu mengidentifikasi situasi, bukan hanya objek. Dengan prompt seperti, "Highlight any employees on the factory floor not wearing a hard hat", Gemini memahami seluruh instruksi bersyarat sebagai satu kueri, menghasilkan masker akhir yang tepat hanya untuk individu yang tidak patuh.

At a construction site, a natural language segmentation overlay is applied to identify "the people not wearing a hard hat".

3. Masa depan klaim: Penilaian kerusakan asuransi yang berbeda

“Kerusakan” adalah konsep abstrak dengan banyak bentuk visual. Penilai asuransi kini bisa menggunakan prompt seperti, "Segment the homes with weather damage” dan Gemini akan menggunakan pengetahuan dunianya untuk mengidentifikasi penyok dan tekstur tertentu yang terkait dengan jenis kerusakan tersebut, membedakannya dari pantulan biasa atau karat.

In an aerial photo of a subdivision, natural language segmentation is used to overlay masks on each "damaged house".

Mengapa ini sangat penting bagi developer

1: Bahasa yang Fleksibel: Bergerak melampaui class yang kaku dan telah ditetapkan sebelumnya. Pendekatan bahasa natural memberikan Anda fleksibilitas untuk membangun solusi “ekor panjang” dari kueri visual yang spesifik untuk industri dan pengguna Anda.

2: Pengalaman Developer yang Disederhanakan: Mulai dalam hitungan menit dengan satu API. Tidak perlu mencari, melatih, dan menghosting model segmentasi khusus secara terpisah. Aksesibilitas ini menurunkan hambatan masuk untuk membangun aplikasi visi termutakhir.


Mulailah membangun sekarang juga

Kami percaya bahwa menghubungkan bahasa secara langsung ke visi pada tingkat piksel akan membuka jalan bagi generasi baru aplikasi cerdas. Kami sangat antusias menantikan kreasi yang akan Anda bangun.

Mulailah sekarang juga di Google AI Studio melalui interaktif kami:

Demo Pemahaman Spasial

Atau jika Anda lebih menyukai lingkungan Python, silakan mulai dengan colab Pemahaman Spasial interaktif kami.

Untuk mulai membangun dengan Gemini API, kunjungi panduan developer dan baca selengkapnya tentang memulai dengan segmentasi. Anda juga bisa bergabung dengan forum developer kami untuk bertemu dengan developer lain, mendiskusikan kasus penggunaan Anda, dan mendapatkan bantuan dari tim Gemini API.

Untuk hasil terbaik, kami sarankan mengikuti praktik terbaik berikut ini:

1: Gunakan model gemini-2.5-flash

2: Nonaktifkan set pemikiran (thinkingBudget=0)

3: Tetap dekat dengan prompt yang disarankan, dan minta JSON sebagai format output.

Give the segmentation masks for the objects. 
Output a JSON list of segmentation masks where each entry contains the 2D bounding box in the key "box_2d", the segmentation mask in key "mask", and the text label in the key "label". 
Use descriptive labels.
Plain text

Ucapan Terima kasih

Kami berterima kasih kepada Weicheng Kuo, Rich Munoz, dan Huizhong Chen untuk pekerjaan mereka pada segmentasi Gemini, Junyan Xu untuk pekerjaan di bidang infrastruktur, Guillaume Vernade atas kontribusinya dalam dokumentasi dan contoh kode, serta kepada seluruh tim pemahaman gambar Gemini, yang berperan penting hingga rilis ini. Terakhir, kami ingin mengucapkan terima kasih kepada pemimpin pemahaman gambar Xi Chen dan Fei Xia serta pemimpin pemahaman multimodal Jean-Baptiste Alayrac.