私たちデベロッパーは画像での作業には慣れています。ペットを認識し、製品を分類し、アートを生成するアプリを開発しています。しかし、そうした時間の大半は、赤(Red)、緑(Green)、青(Blue)で構成される、いわゆる RGB の世界で暮らしています。RGB は私たちの目やカメラが視覚するための手段となっています。
ですが、アプリケーションで超人的な視覚が得られたとしたら?人間の目には見えない波長が見え、まったく新しい方法で世界を捉えられるとしたらどうでしょうか。
これがマルチスペクトル画像の力であり、Google の Gemini モデルのネイティブ マルチモーダル機能によってこれまで以上にアクセスしやすくなりました。カスタムトレーニングを受けた特化モデルはもう必要ありません。複雑な衛星データの分析を即座に開始できます。
よくあるデジタル写真を考えてみましょう。構成要素のピクセルごとに R、G、B の 3 つの値があります。マルチスペクトル センサーは、いわば超高性能カメラです。3 つのバンドの代わりに、近赤外線(NIR)や短波赤外線(SWIR)など、電磁スペクトルの異なるさまざまなバンドにわたってデータをキャプチャします。
これまで、このようなデータを活用するには専用のツール、複雑なデータ処理パイプライン、カスタム機械学習モデルが必要でした。Gemini は私たちの論文で説明しているとおり、この豊富なデータに強力な推論エンジンを驚くほど簡単な手法で活用できるため、大きな転換点となります。
Gemini は、他の大規模なマルチモーダル モデルと同様に、画像とテキストの膨大なデータセットで事前にトレーニングされています。「赤い車」や「緑の森」とは何かを理解します。マルチスペクトル データを理解するうえで重要なのが、考慮すべき目に見えないバンドを Gemini がすでに理解している R、G、B チャネルにマッピングすることです。
このため「フォルスカラー(疑似色)コンポジット」画像を作成します。自然に見せようとするのではなく、科学的なデータをモデルが処理できる形式にエンコードしています。
以下の簡単な 3 つのステップで処理できます。
2. 正規化とマッピング: 各バンドのデータを標準の整数範囲(0~255)に調整して、新しい画像の赤、緑、青のチャネルに割り当てます。
3. コンテキストを含むプロンプトの実行: 新しく作成した画像を Gemini に引き渡して、プロンプトで色が何を表しているかを批判的に伝えます。
この最後のステップが、まさにマジックです。基本的に、カスタムの新しい画像を解釈する方法をモデルにリアルタイムで教えます。
Gemini 2.5 は非常に汎用性が高く、すでにリモート センシングでは十分に機能しています。たとえば、EuroSat の土地被覆分類データセットから以下の画像を正常に理解し、永久作物、河川、工業地域を正確に分類します。
ただし、困難なシナリオにおいては、RGB 画像だけでは十分な情報を得られない可能性があります。たとえばこれは川の画像ですが、モデルは最初間違えて森と分類しました。
論文で説明しているとおり、以下に示すマルチスペクトル疑似画像と詳細なプロンプトを導入して作成した後は、Gemini 2.5 は川として正しく認識しました。その推論トレースは、モデルがマルチスペクトル入力、特に NDWI 画像を活用してこれが水であると推測したことを示しています。
以下に示す別の例は、森の画像です。モデルは当初、青と緑の領域についての推論に基づいて、海の湖として分類しました。
そこでマルチスペクトル入力を含めたところ、モデルはこれを簡単に森と分類しました。推論トレースは追加の入力を有意に活用していることを示しています。
これらの例からわかるように、適切な意思決定を行ううえでは追加のマルチスペクトル入力が重要となります。さらに、モデルを変更する必要がないため、他のタイプの入力も同様に追加できます。
Gemini 2.5 を使用した新しいマルチスペクトル入力の活用例を Colab ノートブックに用意しました。Gemini 2.5 で独自のリモート センシングによるデータ探索を試験的に試すことができます。
このアプローチはデベロッパーにとって大きな転換点であり、複雑な衛星データの分析に立ちはだかる壁を大きく引き下げます。リモート センシングに関する深い専門知識がなくても、新しいアプリケーションのプロトタイピングを、数週間ではなく数時間で迅速に実現します。Gemini の強力なコンテキスト内学習により、農作物のモニタリングから都市計画にいたるまで、多様なタスクに関するさまざまなスペクトル データの解釈方法を、具体的なプロンプトとカスタムの画像を指定するだけで動的に指示できます。
AI を活用した環境モニタリング、精密農業、災害対応の時代がここから始まります。Gemini があれば、そのためのツールが直接手に入れられるのです。NASA の Earthdata、Copernicus Open Access Hub、Google Earth Engine などの公開衛星データを入手して、まったく新しい観点から世界を捉える方法をアプリに教えてみてください。
本研究は、Ganesh Mallya、Yotam Gigi、Dahun Kim、Maxim Neumann、Genady Beryozkin、Tomer Shekel、Anelia Angelova によって実施しており、すべての著者と協力者に謝意を表します。また、Nikita Namjoshi、Lauren Usui、Omar Sanseviero、Logan Kilpatrick、Rohan Doshi、Amanda Stanton、Abhijit Ogale、Radu Soricut、Jean - Baptiste Alayrac、AJ Piergiovanni、Justin Burr、Brian Gabriel、Jane Park、Marlo Colinas Vaughan、Vishal Dharmadhikari、Claire Cui、Zoubin Ghahramani の支援に感謝します。