Membuka Data Multi-Spektral dengan Gemini

1 OKT. 2025

Ganesh Mallya Software Engineer

Anelia Angelova Research Scientist

Sebagai developer, kami terbiasa bekerja dengan gambar. Kami membangun aplikasi yang mengenali hewan peliharaan, mengategorikan produk, dan menghasilkan karya seni. Namun, hampir setiap saat, kita hidup di dunia RGB—Merah, Hijau, dan Biru. Begitulah cara mata dan kamera kita melihat.

Namun bagaimana jika Anda dapat memberikan aplikasi Anda penglihatan super? Bagaimana jika aplikasi tersebut bisa melihat dalam panjang gelombang yang tak terlihat oleh mata manusia untuk memahami dunia dengan cara yang benar-benar baru?

Itulah kekuatan citra multi-spektral, dan berkat kemampuan multimodal native dari model Google Gemini, ia semakin mudah diakses dari sebelumnya. Anda tidak lagi memerlukan model spesial yang dilatih secara khusus. Anda bisa mulai menganalisis data satelit yang kompleks, langsung dari kotaknya.

Sebenarnya, Apa Itu Citra Multi-Spektral?

Bayangkan sebuah foto digital standar. Setiap piksel memiliki tiga nilai: R, G, dan B. Sensor multi-spektral seperti kamera berkekuatan super. Alih-alih hanya tiga band, sensor ini menangkap data di banyak band spektrum elektromagnetik yang berbeda, termasuk yang tidak dapat kita lihat, seperti Near-Infrared (NIR) dan Short-Wave Infrared (SWIR).

Mengapa ini adalah terobosan besar?

Kesehatan Vegetasi: Tanaman yang sehat memantulkan banyak cahaya NIR. Dengan melihat band NIR, Anda bisa menilai kesehatan tanaman atau memantau deforestasi dengan jauh lebih akurat dibandingkan dengan foto hijau biasa.
Deteksi Air: Air menyerap cahaya inframerah, membuatnya mudah dibedakan dari tanah, memetakan dataran banjir, atau bahkan menganalisis kualitas air.
Bekas Kebakaran: Band SWIR sangat baik dalam menembus asap dan mengidentifikasi area yang baru saja terbakar setelah kebakaran.
Identifikasi Material: Berbagai mineral dan material buatan manusia memiliki “sidik jari” spektral yang unik, yang memungkinkan Anda untuk mengidentifikasinya dari luar angkasa.

Secara historis, menggunakan data ini membutuhkan alat khusus, pipeline pemrosesan data yang kompleks, dan model machine learning khusus. Gemini mengubah segalanya dengan memungkinkan Anda memanfaatkan mesin penalarannya yang kuat pada data yang berlimpah ini dengan teknik yang sangat sederhana, seperti yang dijelaskan dalam makalah penelitian kami.

Memetakan Cahaya Tak Terlihat ke Warna yang Terlihat

Gemini, seperti model multimodal besar lainnya, telah dilatih sebelumnya pada set data gambar dan teks yang sangat banyak. Ia memahami apa yang dimaksud dengan “mobil merah” atau “hutan hijau”. Kunci untuk membuatnya memahami data multi-spektral adalah dengan memetakan band tak terlihat yang kita inginkan ke dalam saluran R, G, dan B yang sudah dipahami oleh Gemini.

Kami membuat gambar “komposit warna palsu”. Kami tidak mencoba membuatnya terlihat natural; kami meng-encoding data ilmiah ke dalam format yang dapat diproses oleh model.

Berikut adalah proses tiga langkah sederhana:

Pilih Band Anda: Pilih tiga band spektral yang penting untuk masalah spesifik Anda.

2. Normalisasi dan Petakan: Skalakan data dari setiap band ke rentang integer standar 0-255 dan tetapkan ke saluran Merah, Hijau, dan Biru pada gambar baru.

3. Prompt dengan Konteks: Berikan gambar yang baru dibuat ini ke Gemini dan, yang terpenting, beritahukan dalam prompt mengenai apa yang direpresentasikan warna-warna tersebut.

Langkah terakhir ini adalah bagian ajaibnya. Pada dasarnya, Anda mengajari model, secara real-time, cara menginterpretasikan gambar baru khusus.

Beberapa contoh

Gemini 2.5 cukup serbaguna dan sudah bekerja dengan sangat baik untuk penginderaan jauh. Sebagai contoh, Gemini berhasil memahami gambar di bawah ini, yang diambil dari set data EuroSat untuk klasifikasi penutup lahan, dan mengklasifikasikannya secara akurat sebagai Tanaman Permanen, Sungai, dan Area Industri.

Namun, dalam beberapa skenario yang menantang, model mungkin tidak memiliki informasi yang cukup dari gambar RGB saja. Sebagai contoh, ini adalah gambar Sungai, pada awalnya, model salah mengklasifikasikannya sebagai Hutan.

Setelah memperkenalkan dan membangun citra semu multi-spektral, yang ditunjukkan di bawah ini, dan prompt terperinci, seperti yang dijelaskan dalam makalah, Gemini 2.5 dengan benar mengenalinya sebagai Sungai, dan jejak penalarannya menunjukkan bahwa model tersebut telah menggunakan input multi-spektral, terutama citra NDWI, untuk menyimpulkan bahwa ini adalah air.

Pada contoh lain, yang ditunjukkan di bawah ini, yang merupakan gambar Hutan, model ini awalnya mengklasifikasikannya sebagai Danau Laut, dengan mendasarkan penalarannya pada area biru/hijau.

Ketika menyertakan input multi-spektral, kita melihat model kini dengan mudah mengklasifikasikannya sebagai Hutan dan jejak penalaran menunjukkan bahwa model memanfaatkan input tambahan secara signifikan.

Seperti yang terlihat dari contoh-contoh ini, jelas bahwa input multi-spektral tambahan sangatlah penting untuk membuat keputusan yang lebih baik. Lebih jauh lagi, karena model tidak perlu diubah, kita bisa menambahkan jenis input lain dengan cara yang sama.

Cobalah!

Kami telah menyiapkan notebook colab sebagai contoh cara menggunakan Gemini 2.5 dengan input multi-spektral yang baru. Kini Anda bisa mencoba eksplorasi penginderaan jauh Anda sendiri dengan Gemini 2.5.

Kekuatan Gemini

Pendekatan ini merupakan terobosan besar bagi developer, yang secara dramatis menurunkan hambatan masuk untuk menganalisis data satelit yang kompleks. Pendekatan ini memungkinkan pembuatan prototipe aplikasi baru secara cepat dalam hitungan jam, bukan minggu, tanpa memerlukan keahlian penginderaan jauh yang mendalam. Berkat pembelajaran dalam konteks yang kuat dari Gemini, developer bisa secara dinamis menginstruksikan model tentang cara menginterpretasikan data spektral yang berbeda untuk berbagai tugas—mulai dari pemantauan pertanian hingga perencanaan kota—cukup dengan memberikan prompt yang jelas di samping gambar khusus.

Era pemantauan lingkungan, pertanian presisi, dan tanggap bencana berteknologi AI telah tiba, dan dengan Gemini, semua alat tersebut langsung ada di tangan Anda. Jadi, ambil beberapa data satelit publik dari beberapa sumber, seperti NASA Earthdata, Copernicus Open Access Hub, atau Google Earth Engine, dan mulailah mengajari aplikasi Anda untuk melihat dunia dengan cara yang baru.

Ucapan Terima kasih

Penelitian ini dilakukan oleh Ganesh Mallya, Yotam Gigi, Dahun Kim, Maxim Neumann, Genady Beryozkin, Tomer Shekel, dan Anelia Angelova, dan kami berterima kasih kepada semua penulis dan kolaborator. Kami juga ingin mengucapkan terima kasih kepada Nikita Namjoshi, Lauren Usui, Omar Sanseviero, Logan Kilpatrick, Rohan Doshi, Amanda Stanton, Abhijit Ogale, Radu Soricut, Jean-Baptiste Alayrac, AJ Piergiovanni, Justin Burr, Brian Gabriel, Jane Park, Marlo Colinas Vaughan, Vishal Dharmadhikari, Claire Cui, Zoubin Ghahramani atas bantuan dan dukungannya.

diposting di: