Como desenvolvedores, estamos acostumados a trabalhar com imagens. Criamos apps que reconhecem animais de estimação, categorizam produtos e geram arte. Mas, na maior parte do tempo, estamos vivendo em um mundo RGB, ou seja, em vermelho, verde e azul. É assim que nossos olhos e as câmeras enxergam.
Mas, e se você pudesse dar a seu aplicativo uma visão sobre-humana? E se pudesse enxergar em comprimentos de onda invisíveis aos olhos humanos para entender o mundo de uma maneira fundamentalmente nova?
Esse é o poder das imagens multiespectrais e, graças aos recursos multimodais nativos dos modelos Gemini do Google, elas estão mais acessíveis do que nunca. Você não precisa mais de um modelo especializado e treinado de forma personalizada, e pode começar a analisar dados complexos de satélites, sem necessidade de configuração adicional.
Pense em uma foto digital padrão. Cada pixel tem três valores: R, G e B. Um sensor multiespectral é como uma câmera superpoderosa. Em vez de apenas três bandas, ele captura dados em muitas bandas diferentes do espectro eletromagnético, incluindo aquelas que não podemos ver, como o infravermelho próximo (NIR) e o infravermelho de onda curta (SWIR).
O uso desses dados sempre exigiu ferramentas especializadas, pipelines complexos de processamento de dados e modelos personalizados de aprendizado de máquina. O Gemini muda esse jogo, permitindo que você aproveite seu poderoso mecanismo de raciocínio nesses dados ricos com uma técnica surpreendentemente simples, conforme descrito em nosso artigo de pesquisa.
O Gemini, assim como outros modelos multimodais grandes, é pré-treinado em um vasto conjunto de dados de imagens e texto. Ele entende o que é um "carro vermelho" ou uma "floresta verde". A chave para fazê-lo entender os dados multiespectrais é mapear as bandas invisíveis que desejamos para os canais R, G e B que o Gemini já entende.
Criamos uma imagem de "composição de cores falsas". Não estamos tentando fazer com que ela pareça natural; estamos codificando dados científicos em um formato que o modelo possa processar.
Este é o processo simples em três etapas:
2. Normalize e mapeie: escalone os dados de cada banda para um intervalo padrão de números inteiros de 0 a 255 e atribua-os aos canais Vermelho, Verde e Azul de uma nova imagem.
3. Crie um prompt com contexto: transmita essa imagem recém-criada para o Gemini e, o mais importante, informe, no prompt, o que as cores representam.
Essa última etapa é a parte mágica. Você está, essencialmente, ensinando o modelo, em tempo real, a interpretar suas novas imagens personalizadas.
O Gemini 2.5 é bastante versátil e já funciona muito bem para a detecção remota. Por exemplo, ele entende com sucesso as imagens abaixo, que são do conjunto de dados EuroSat para a classificação de cobertura de terra, classificando-as com precisão como áreas de cultivo permanente, fluvial e industrial, respectivamente.
Em alguns cenários desafiadores, porém, o modelo pode não ter informações suficientes apenas da imagem RGB. Por exemplo, esta é uma imagem de um rio que, inicialmente, o modelo classifica erroneamente como uma floresta.
Após a introdução e a construção de pseudoimagens multiespectrais, mostradas abaixo, e de um prompt detalhado, conforme descrito no artigo, o Gemini 2.5 faz o reconhecimento corretamente como um rio, e seu trace de raciocínio mostra que o modelo utilizou as entradas multiespectrais, em particular a imagem NDWI, para inferir que isso é água.
Em outro exemplo, mostrado abaixo, que é uma imagem de uma floresta, o modelo inicialmente faz a classificação como um lago marinho, baseando seu raciocínio nas áreas azul/verde.
Com a inclusão de entradas multiespectrais, vemos que o modelo agora classifica isso facilmente como uma floresta, e o trace de raciocínio mostra que ele utiliza as entradas adicionais de forma bastante significativa.
Como vimos nesses exemplos, fica claro que as entradas multiespectrais adicionais são importantes para a tomada de decisões melhores. Além disso, como o modelo não precisa ser alterado, podemos adicionar outros tipos de entradas da mesma maneira.
Preparamos um notebook do colab como exemplo de como usar o Gemini 2.5 com novas entradas multiespectrais. Agora, você pode experimentar suas próprias detecções remotas com o Gemini 2.5.
Essa abordagem é um divisor de águas para os desenvolvedores, reduzindo drasticamente a barreira de entrada para a análise de dados complexos de satélites. Ela permite a prototipagem rápida de novos aplicativos em questão de horas, em vez de semanas, sem exigir um conhecimento profundo de detecção remota. Graças ao poderoso aprendizado em contexto do Gemini, os desenvolvedores podem instruir dinamicamente o modelo sobre como interpretar diferentes dados espectrais para várias tarefas — do monitoramento agrícola ao planejamento urbano – simplesmente fornecendo um prompt claro juntamente com a imagem personalizada.
A era do monitoramento ambiental, da agricultura de precisão e da resposta a desastres habilitados por IA já é uma realidade. E, com o Gemini, as ferramentas estão nas suas mãos. Então, pegue alguns dados públicos de satélites de fontes como o Earthdata da NASA, o Copernicus Open Access Hub ou o Google Earth Engine e comece a ensinar seu app a ver o mundo sob uma nova luz.
Esta pesquisa é conduzida por Ganesh Mallya, Yotam Gigi, Dahun Kim, Maxim Neumann, Genady Beryozkin, Tomer Shekel e Anelia Angelova, e agradecemos a todos os autores e colaboradores. Também gostaríamos de agradecer a Nikita Namjoshi, Lauren Usui, Omar Sanseviero, Logan Kilpatrick, Rohan Doshi, Amanda Stanton, Abhijit Ogale, Radu Soricut, Jean-Baptiste Alayrac, AJ Piergiovanni, Justin Burr, Brian Gabriel, Jane Park, Marlo Colinas Vaughan, Vishal Dharmadhikari, Claire Cui, Zoubin Ghahramani por sua ajuda e apoio.