Sebagai developer, kami terbiasa bekerja dengan gambar. Kami membangun aplikasi yang mengenali hewan peliharaan, mengategorikan produk, dan menghasilkan karya seni. Namun, hampir setiap saat, kita hidup di dunia RGB—Merah, Hijau, dan Biru. Begitulah cara mata dan kamera kita melihat.
Namun bagaimana jika Anda dapat memberikan aplikasi Anda penglihatan super? Bagaimana jika aplikasi tersebut bisa melihat dalam panjang gelombang yang tak terlihat oleh mata manusia untuk memahami dunia dengan cara yang benar-benar baru?
Itulah kekuatan citra multi-spektral, dan berkat kemampuan multimodal native dari model Google Gemini, ia semakin mudah diakses dari sebelumnya. Anda tidak lagi memerlukan model spesial yang dilatih secara khusus. Anda bisa mulai menganalisis data satelit yang kompleks, langsung dari kotaknya.
Bayangkan sebuah foto digital standar. Setiap piksel memiliki tiga nilai: R, G, dan B. Sensor multi-spektral seperti kamera berkekuatan super. Alih-alih hanya tiga band, sensor ini menangkap data di banyak band spektrum elektromagnetik yang berbeda, termasuk yang tidak dapat kita lihat, seperti Near-Infrared (NIR) dan Short-Wave Infrared (SWIR).
Secara historis, menggunakan data ini membutuhkan alat khusus, pipeline pemrosesan data yang kompleks, dan model machine learning khusus. Gemini mengubah segalanya dengan memungkinkan Anda memanfaatkan mesin penalarannya yang kuat pada data yang berlimpah ini dengan teknik yang sangat sederhana, seperti yang dijelaskan dalam makalah penelitian kami.
Gemini, seperti model multimodal besar lainnya, telah dilatih sebelumnya pada set data gambar dan teks yang sangat banyak. Ia memahami apa yang dimaksud dengan “mobil merah” atau “hutan hijau”. Kunci untuk membuatnya memahami data multi-spektral adalah dengan memetakan band tak terlihat yang kita inginkan ke dalam saluran R, G, dan B yang sudah dipahami oleh Gemini.
Kami membuat gambar “komposit warna palsu”. Kami tidak mencoba membuatnya terlihat natural; kami meng-encoding data ilmiah ke dalam format yang dapat diproses oleh model.
Berikut adalah proses tiga langkah sederhana:
2. Normalisasi dan Petakan: Skalakan data dari setiap band ke rentang integer standar 0-255 dan tetapkan ke saluran Merah, Hijau, dan Biru pada gambar baru.
3. Prompt dengan Konteks: Berikan gambar yang baru dibuat ini ke Gemini dan, yang terpenting, beritahukan dalam prompt mengenai apa yang direpresentasikan warna-warna tersebut.
Langkah terakhir ini adalah bagian ajaibnya. Pada dasarnya, Anda mengajari model, secara real-time, cara menginterpretasikan gambar baru khusus.
Gemini 2.5 cukup serbaguna dan sudah bekerja dengan sangat baik untuk penginderaan jauh. Sebagai contoh, Gemini berhasil memahami gambar di bawah ini, yang diambil dari set data EuroSat untuk klasifikasi penutup lahan, dan mengklasifikasikannya secara akurat sebagai Tanaman Permanen, Sungai, dan Area Industri.
Namun, dalam beberapa skenario yang menantang, model mungkin tidak memiliki informasi yang cukup dari gambar RGB saja. Sebagai contoh, ini adalah gambar Sungai, pada awalnya, model salah mengklasifikasikannya sebagai Hutan.
Setelah memperkenalkan dan membangun citra semu multi-spektral, yang ditunjukkan di bawah ini, dan prompt terperinci, seperti yang dijelaskan dalam makalah, Gemini 2.5 dengan benar mengenalinya sebagai Sungai, dan jejak penalarannya menunjukkan bahwa model tersebut telah menggunakan input multi-spektral, terutama citra NDWI, untuk menyimpulkan bahwa ini adalah air.
Pada contoh lain, yang ditunjukkan di bawah ini, yang merupakan gambar Hutan, model ini awalnya mengklasifikasikannya sebagai Danau Laut, dengan mendasarkan penalarannya pada area biru/hijau.
Ketika menyertakan input multi-spektral, kita melihat model kini dengan mudah mengklasifikasikannya sebagai Hutan dan jejak penalaran menunjukkan bahwa model memanfaatkan input tambahan secara signifikan.
Seperti yang terlihat dari contoh-contoh ini, jelas bahwa input multi-spektral tambahan sangatlah penting untuk membuat keputusan yang lebih baik. Lebih jauh lagi, karena model tidak perlu diubah, kita bisa menambahkan jenis input lain dengan cara yang sama.
Kami telah menyiapkan notebook colab sebagai contoh cara menggunakan Gemini 2.5 dengan input multi-spektral yang baru. Kini Anda bisa mencoba eksplorasi penginderaan jauh Anda sendiri dengan Gemini 2.5.
Pendekatan ini merupakan terobosan besar bagi developer, yang secara dramatis menurunkan hambatan masuk untuk menganalisis data satelit yang kompleks. Pendekatan ini memungkinkan pembuatan prototipe aplikasi baru secara cepat dalam hitungan jam, bukan minggu, tanpa memerlukan keahlian penginderaan jauh yang mendalam. Berkat pembelajaran dalam konteks yang kuat dari Gemini, developer bisa secara dinamis menginstruksikan model tentang cara menginterpretasikan data spektral yang berbeda untuk berbagai tugas—mulai dari pemantauan pertanian hingga perencanaan kota—cukup dengan memberikan prompt yang jelas di samping gambar khusus.
Era pemantauan lingkungan, pertanian presisi, dan tanggap bencana berteknologi AI telah tiba, dan dengan Gemini, semua alat tersebut langsung ada di tangan Anda. Jadi, ambil beberapa data satelit publik dari beberapa sumber, seperti NASA Earthdata, Copernicus Open Access Hub, atau Google Earth Engine, dan mulailah mengajari aplikasi Anda untuk melihat dunia dengan cara yang baru.
Penelitian ini dilakukan oleh Ganesh Mallya, Yotam Gigi, Dahun Kim, Maxim Neumann, Genady Beryozkin, Tomer Shekel, dan Anelia Angelova, dan kami berterima kasih kepada semua penulis dan kolaborator. Kami juga ingin mengucapkan terima kasih kepada Nikita Namjoshi, Lauren Usui, Omar Sanseviero, Logan Kilpatrick, Rohan Doshi, Amanda Stanton, Abhijit Ogale, Radu Soricut, Jean-Baptiste Alayrac, AJ Piergiovanni, Justin Burr, Brian Gabriel, Jane Park, Marlo Colinas Vaughan, Vishal Dharmadhikari, Claire Cui, Zoubin Ghahramani atas bantuan dan dukungannya.