Desbloquear datos multiespectrales con Gemini

1 DE OCTUBRE DE 2025

Ganesh Mallya Software Engineer

Anelia Angelova Research Scientist

Quienes trabajamos como desarrolladores, solemos usar imágenes. Creamos aplicaciones que reconocen mascotas, categorizan productos y generan arte. Pero, la mayoría de las veces, vivimos en un mundo RGB: rojo, verde y azul. Así es como ven nuestros ojos y nuestras cámaras.

Pero ¿qué pasaría si pudieras darle a tu aplicación una visión sobrehumana? ¿Qué pasaría si pudiera ver en longitudes de onda invisibles para el ojo humano y así comprender el mundo de una manera fundamentalmente nueva?

Ese es el poder de las imágenes multiespectrales y, gracias a las capacidades multimodales nativas de los modelos Gemini de Google, hoy es más accesible que nunca. Ya no necesitas un modelo especializado y entrenado a medida. Puedes comenzar a analizar datos satelitales complejos desde el primer momento.

Pero ¿qué son las imágenes multiespectrales?

Piensa en una foto digital estándar. Cada píxel tiene tres valores: R, G y B. Un sensor multiespectral es como una cámara superpoderosa. En lugar de solo tres bandas, captura datos en muchas bandas diferentes del espectro electromagnético, incluidas aquellas que no podemos ver, como el infrarrojo cercano (NIR) y el infrarrojo de onda corta (SWIR).

¿Por qué es una innovación revolucionaria?

Estado de la vegetación: Las plantas sanas reflejan mucha luz NIR. Al observar la banda NIR, puedes evaluar el estado de los cultivos o supervisar la deforestación con mucha más precisión que con una simple foto verde.
Detección de agua: El agua absorbe la luz infrarroja, por lo que es fácil distinguirla de la tierra, trazar un mapa de las llanuras aluviales o incluso analizar la calidad del agua.
Zonas incendiadas: Las bandas SWIR son excelentes para atravesar el humo e identificar áreas recientemente quemadas después de un incendio forestal.
Identificación de materiales: Los diferentes minerales y materiales artificiales tienen “huellas” espectrales únicas, lo que te permite identificarlos desde el espacio.

Históricamente, para usar estos datos se requerían herramientas especializadas, canalizaciones de procesamiento de datos complejos y modelos de aprendizaje automático personalizados. Gemini presenta un cambio radical, ya que te permite aprovechar su poderoso motor de razonamiento en esta enorme cantidad de ricos datos con una técnica sorprendentemente simple, como se describe en nuestro artículo de investigación.

Asignar luz invisible a colores visibles

Gemini, al igual que otros grandes modelos multimodales, se entrenó previamente con un vasto conjunto de datos de imágenes y texto. Entiende lo que es un “auto rojo” o un “bosque verde”. La clave para que entienda los datos multiespectrales es asignar las bandas invisibles relevantes a los canales R, G y B, que Gemini ya entiende.

Creamos una imagen “compuesta de colores falsos”. No intentamos que se vea natural, sino que codificamos datos científicos en un formato que el modelo pueda procesar.

Este es el proceso simple de tres pasos:

Selecciona las bandas: Elige tres bandas espectrales que sean importantes para tu problema específico.

2. Normaliza y asigna: Escala los datos de cada banda a un rango entero estándar de 0 a 255 y asígnalos a los canales rojo, verde y azul de una nueva imagen.

3. Haz una indicación con contexto: Pasa esta imagen recién creada a Gemini y, fundamentalmente, dile lo que representan los colores.

Este último paso es clave. Básicamente, le estás enseñando al modelo, en tiempo real, cómo interpretar tus nuevas imágenes personalizadas.

Algunos ejemplos

Gemini 2.5 es bastante versátil y ya funciona muy bien para la teledetección. Por ejemplo, entiende correctamente las siguientes imágenes, obtenidas del conjunto de datos EuroSat para la clasificación de la cobertura del suelo, y las clasifica con precisión como cultivos permanentes, áreas fluviales y áreas industriales, respectivamente.

Sin embargo, en algunas situaciones desafiantes, es posible que el modelo no tenga suficiente información de la imagen RGB por sí sola. Por ejemplo, esta es una imagen de un río que, inicialmente, el modelo clasifica erróneamente como un bosque.

Después de introducir y crear pseudoimágenes multiespectrales, que se muestran a continuación, y de una indicación detallada, como se describe en el artículo, Gemini 2.5 lo reconoce correctamente como un río, y su rastro de razonamiento muestra que el modelo utilizó las entradas multiespectrales, particularmente la imagen NDWI, para inferir que se trata de agua.

En el ejemplo que se muestra a continuación, el modelo clasifica inicialmente como un lago marino la imagen de un bosque, basando su razonamiento en las áreas azules y verdes.

Cuando se incluyen las entradas multiespectrales, vemos que el modelo ahora clasifica fácilmente esta zona como un bosque y el rastro de razonamiento muestra que aprovecha las entradas adicionales de manera bastante significativa.

Como se ve en estos ejemplos, está claro que las entradas multiespectrales adicionales son importantes para tomar mejores decisiones. Además, dado que no es necesario cambiar el modelo, podemos agregar otros tipos de entradas de la misma manera.

¡Pruébala!

Preparamos un notebook de colab como ejemplo de uso de Gemini 2.5 con nuevas entradas multiespectrales. Ahora puedes probar tus propias exploraciones de teledetección con Gemini 2.5.

El poder de Gemini

Este enfoque es un cambio radical para los desarrolladores, ya que reduce en gran medida la barrera de entrada para analizar datos satelitales complejos. Permite la creación rápida de prototipos de nuevas aplicaciones en horas, no en semanas, y no requiere una gran experiencia en teledetección. Gracias al poderoso aprendizaje en contexto de Gemini, los desarrolladores pueden instruir dinámicamente al modelo sobre cómo debe interpretar diferentes datos espectrales para diversas tareas, desde la supervisión agrícola hasta la planificación urbana, simplemente proporcionando una indicación clara junto con la imagen personalizada.

Llegó la era de la supervisión ambiental, la agricultura de precisión y la respuesta a desastres impulsadas por la IA, y con Gemini tienes todas las herramientas en tus manos. Toma algunos datos satelitales públicos de fuentes como Earthdata de la NASA, Copernicus Open Access Hub o Google Earth Engine y comienza a enseñar a tu aplicación a ver el mundo bajo una luz completamente nueva.

Agradecimientos

Esta investigación está a cargo de Ganesh Mallya, Yotam Gigi, Dahun Kim, Maxim Neumann, Genady Beryozkin, Tomer Shekel y Anelia Angelova, y nos gustaría agradecer a todos los autores y colaboradores. También nos gustaría agradecer a Nikita Namjoshi, Lauren Usui, Omar Sanseviero, Logan Kilpatrick, Rohan Doshi, Amanda Stanton, Abhijit Ogale, Radu Soricut, Jean-Baptiste Alayrac, AJ Piergiovanni, Justin Burr, Brian Gabriel, Jane Park, Marlo Colinas Vaughan, Vishal Dharmadhikari, Claire Cui y Zoubin Ghahramani por su ayuda y apoyo.

publicado en: