作为开发者,我们习惯于处理图像。我们构建能够识别宠物、对产品进行分类并生成艺术作品的应用程序。但大多数时候,我们生活在由红色、绿色和蓝色组成的 RGB 世界中,因为这就是我们的眼睛和摄像头所看到的。
但是,能否设想一下为应用程序提供超人一般的视觉效果?如果它能看到人眼看不见的波长,以一种全新的方式理解世界,会发生什么?
这就是多光谱图像的力量,得益于谷歌 Gemini 模型的原生多模态功能,实现这样的效果前所未有地容易。您不再需要经过定制训练的专业型号,可以直接开始分析复杂的卫星数据。
想象一张标准的数码照片,其中的每个像素都有三个值:R、G 和 B。多光谱传感器就像一个超级相机。它不仅可以捕获这三个波段,还可以捕获电磁频谱许多不同波段的数据,包括我们看不到的波段,如近红外 (NIR) 和短波红外 (SWIR) 波段。
之前,使用这些数据需要专门的工具、复杂的数据处理渠道和自定义机器学习模型。如我们的研究论文所述,Gemini 让您可以利用其强大的推理引擎,以令人惊讶的简单技巧处理这些丰富数据,从而带来巨大改变。
与其他大型多模态模型一样,Gemini 在庞大的图像和文本数据集上进行了预训练。它了解什么是“红色汽车”或“绿色森林”。让它理解多光谱数据的关键是将我们关心的不可见波段映射到 Gemini 已经理解的 R、G 和 B 通道中。
我们创建了一种“假彩色合成”图像。我们并不想让它看起来很自然;而是要将科学数据编码为模型可以处理的格式。
以下是简单的三步流程:
2. 标准化和映射:将每个波段的数据缩放到标准的 0-255 整数范围,并将其分配给新图像的红色、绿色和蓝色通道。
3. 附有背景信息的提示词:将这个新创建的图像传递给 Gemini,并在提示词中告诉它颜色代表什么(这一步很关键)。
最后一步就是魔法。您实际上就是在实时教导模型如何解读您的自定义新图像。
Gemini 2.5 非常通用,而且已经非常适应遥感。例如,它成功地理解了下面的图片,这些图片来自用于土地覆盖物分类的 EuroSat 数据集,Gemini 分别将它们准确地分类为永久性作物、河流和工业区。
然而,在一些具有挑战性的场景中,模型可能无法仅从 RGB 图片中获得足够的信息。例如,这是河流的图片,但最初模型错误地将其归类为森林。
在引入和构建多光谱假图像(如下所示)以及详细的提示词(如该论文所述)之后,Gemini 2.5 正确地将上述图片识别为河流,其推理轨迹表明该模型已利用多光谱输入(特别是 NDWI 图像)来推断出这是水体。
下面的另一个示例是森林的图片,Gemini 模型最初将其分类为海湖,其推理基于蓝色/绿色区域。
纳入多光谱输入后,我们看到模型现在很容易将其分类为森林,推理轨迹显示它大量利用了额外的输入。
从这些示例中可以看出,显然额外的多光谱输入对于做出更好的决策非常重要。此外,由于模型不需要更改,我们可以以相同的方式添加其他类型的输入。
我们准备了一个 Colab 笔记本,用于演示如何将 Gemini 2.5 与新的多光谱输入结合使用。现在,您可以使用 Gemini 2.5 尝试自己的遥感探索。
这种方法对开发人员来说是堪称颠覆传统,大大降低了分析复杂卫星数据的进入门槛。通过这种方式,研究人员可以在数小时而不是数周内对新应用程序进行快速原型设计,而无需在遥感方面拥有深厚的专业知识。得益于 Gemini 强大的背景信息学习功能,开发人员只需提供自定义图片并附上清晰的提示词,即可动态指示模型如何为各种任务(从农业监测到城市规划)解释不同的光谱数据。
人工智能现在可以驱动环境监测、精准农业和灾难响应,新的时代已经到来。有了 Gemini,便可将工具直接掌握在您手中。因此,不妨从 NASA 的 Earthdata、Copernicus Open Access Hub 或 Google Earth Engine 等来源获取一些公共卫星数据,开始教导您的应用以全新的视角看待世界。
这项研究由 Ganesh Mallya、Yotam Gigi、Dahun Kim、Maxim Neumann、Genady Beryozkin、Tomer Shekel 和 Anelia Angelova 进行,我们向所有作者和合作者表示感谢。我们还要感谢 Nikita Namjoshi、Lauren Usui、Omar Sanseviero、Logan Kilpatrick、Rohan Doshi、Amanda Stanton、Abhijit Ogale、Radu Soricut、Jean-Baptiste Alayrac、AJ Piergiovanni、Justin Burr、Brian Gabriel、Jane Park、Marlo Colinas Vaughan、Vishal Dharmadhikari、Claire Cui、Zoubin Ghahramani 的帮助和支持。