Apresentamos a Coral NPU: uma plataforma de pilha completa para a IA de borda

15 DE OUTUBRO DE 2025
Billy Rutledge Eng Director Google Research

Apresentamos a Coral NPU, uma plataforma de código aberto de pilha completa projetada para lidar com os principais desafios de desempenho, fragmentação e privacidade que limitam a IA poderosa e sempre ativa com dispositivos de borda e wearables com baixo consumo de energia.

Coral NPU: uma plataforma de pilha completa para a IA de borda

A IA generativa mudou fundamentalmente nossas expectativas em relação à tecnologia. Já vimos o poder dos modelos baseados na nuvem em larga escala para criar, raciocinar e ajudar de maneiras incríveis. No entanto, o próximo grande salto tecnológico não é apenas tornar os modelos de nuvem maiores, mas sim incorporar sua inteligência diretamente a nosso ambiente imediato e pessoal. Para que a IA seja verdadeiramente assistiva — ajudando-nos proativamente ao longo do dia, traduzindo conversas em tempo real ou entendendo nosso contexto físico — ela deve ser executada nos dispositivos que usamos e carregamos conosco. Isso representa um desafio central: incorporar a IA ambiental a dispositivos de borda com restrições de bateria, libertando-os da nuvem para possibilitar experiências assistivas verdadeiramente privadas durante todo o dia.

Para passar da nuvem para os dispositivos pessoais, precisamos resolver três problemas críticos:

  • A lacuna de desempenho: modelos de aprendizado de máquina (ML) complexos e de última geração exigem mais potência de computação, excedendo em muito os limitados orçamentos térmicos, de energia e de memória de um dispositivo de borda.
  • A taxa de fragmentação: compilar e otimizar modelos de ML para um cenário diversificado de processadores proprietários é difícil e caro, o que prejudica o desempenho consistente em todos os dispositivos.
  • O déficit de confiança do usuário: para ser verdadeiramente útil, a IA pessoal deve priorizar a privacidade e a segurança dos dados pessoais e de contexto.

Hoje, apresentamos a Coral NPU, uma plataforma de pilha completa que se baseia em nosso trabalho original do Coral para fornecer a designers de hardware e desenvolvedores de ML as ferramentas necessárias para criar a próxima geração de dispositivos de IA de ponta privados e eficientes. Projetada em parceria com o Google Research e o Google DeepMind, a Coral NPU é uma arquitetura de hardware que prioriza a IA, criada para permitir a próxima geração de IA de borda com consumo de energia ultrabaixo e sempre ativa. Ela oferece uma experiência unificada para os desenvolvedores, facilitando a implantação de aplicativos como os de detecção de ambiente. Ela foi projetada especificamente para habilitar a IA durante todo o dia em wearables, minimizando o uso da bateria e sendo configurável para casos de uso de desempenho mais alto. Lançamos nossa documentação e nossas ferramentas para que os desenvolvedores e designers possam começar a criar ainda hoje.

Coral NPU: uma arquitetura que prioriza a IA

Os desenvolvedores que criam dispositivos de borda com baixo consumo de energia enfrentam uma questão fundamental: a necessidade de optar entre CPUs de uso geral e aceleradores especializados. As CPUs de uso geral oferecem flexibilidade crucial e amplo suporte a software, mas não têm a arquitetura específica de domínio para cargas de trabalho de ML exigentes, o que as torna menos eficientes em termos de desempenho e energia. Por outro lado, os aceleradores especializados fornecem alta eficiência de ML, mas são inflexíveis, difíceis de programar e inadequados para tarefas gerais.

Esse problema de hardware é ampliado por um ecossistema de software altamente fragmentado. Com modelos de programação totalmente diferentes para CPUs e blocos de ML, os desenvolvedores geralmente são forçados a usar compiladores proprietários e buffers de comandos complexos. Isso cria uma curva de aprendizado íngreme e dificulta a combinação dos pontos fortes exclusivos de diferentes unidades de computação. Consequentemente, o setor carece de uma arquitetura madura e com baixo consumo de energia que possa suportar de forma fácil e eficaz vários frameworks de desenvolvimento de ML.

A arquitetura Coral NPU aborda isso diretamente, revertendo o design tradicional do chip. Ela prioriza o mecanismo de matriz de ML em relação à computação escalar, otimizando a arquitetura para a IA desde o início e criando uma plataforma projetada especificamente para uma inferência mais eficiente no dispositivo.

Como uma arquitetura completa de unidade de processamento neural (NPU) de referência, a Coral NPU fornece a base para a próxima geração de sistemas em chip (SoCs) otimizados para ML e com eficiência energética. A arquitetura é baseada em um conjunto de blocos IP arquitetônicos compatíveis com RISC-V ISA e é projetada para consumo mínimo de energia, o que a torna ideal para a detecção de ambiente sempre ativa. O design básico oferece desempenho na faixa das 512 gigaoperações por segundo (GOPS), consumindo apenas alguns miliwatts e permitindo, assim, uma IA no dispositivo poderosa para dispositivos de borda, hearables, óculos de RA e smartwatches.

The full platform_v4_Fin_Alpha

A arquitetura aberta e extensível baseada em RISC-V oferece aos designers de SoC flexibilidade para modificar o projeto de base ou usá-lo como uma NPU pré-configurada. A arquitetura da Coral NPU inclui os seguintes componentes:

  • Um núcleo escalar: um front-end RISC-V leve e programável em C que gerencia o fluxo de dados para os núcleos de back-end usando um modelo simples de "execução até a conclusão" para um consumo de energia ultrabaixo e funções tradicionais de CPU.
  • Uma unidade de execução vetorial: um coprocessador SIMD (Single Instruction, Multiple Data) robusto e compatível com o conjunto de instruções RISC-V Vector (RVV) v1.0, permitindo operações simultâneas em grandes conjuntos de dados.
  • Uma unidade de execução matricial: um mecanismo multiply-accumulate (MAC) de produto externo quantizado altamente eficiente, criado especificamente para acelerar operações fundamentais de rede neural. Observe que o núcleo da matriz ainda está em desenvolvimento e será lançado no GitHub ainda este ano.
Inspiration of Coral_v4_Fin_Alpha

Experiência unificada para desenvolvedores

A arquitetura da Coral NPU é um destino simples e programável em C que pode se integrar perfeitamente a compiladores modernos, como IREE e TFLM. Isso facilita o suporte a frameworks de ML como TensorFlow, JAX e PyTorch.

A Coral NPU incorpora uma cadeia de ferramentas de software abrangente, incluindo soluções especializadas, como o compilador TFLM para TensorFlow, juntamente com um compilador MLIR de uso geral, um compilador C, kernels personalizados e um simulador. Isso fornece caminhos flexíveis aos desenvolvedores. Por exemplo, um modelo de um framework como o JAX é importado primeiro para o formato MLIR usando o dialeto StableHLO. Esse arquivo intermediário é, então, alimentado no compilador IREE, que aplica um plug-in específico de hardware para reconhecer a arquitetura da Coral NPU. A partir daí, o compilador realiza a redução progressiva, uma etapa crítica de otimização na qual o código é sistematicamente traduzido por meio de uma série de dialetos, aproximando-se da linguagem nativa da máquina. Após a otimização, a cadeia de ferramentas gera um arquivo binário final compacto e pronto para execução eficiente no dispositivo de borda. Esse pacote de ferramentas para desenvolvedores padrão do setor ajuda a simplificar a programação de modelos de ML e pode permitir uma experiência consistente em vários destinos de hardware.

The compiler toolchain_v4_Fin_Alpha

O processo de design conjunto da Coral NPU se concentra em duas áreas principais. Primeiro, a arquitetura acelera de maneira eficiente as principais arquiteturas baseadas em codificador usadas nos aplicativos atuais de visão e áudio no dispositivo. Em segundo lugar, estamos colaborando diretamente com a equipe do Gemma para otimizar a Coral NPU para modelos transformadores pequenos, ajudando a garantir que a arquitetura do acelerador possa dar suporte à próxima geração de IA generativa na borda.

Esse foco duplo significa que a Coral NPU está no caminho certo para ser a primeira NPU aberta, baseada em padrões e com baixo consumo de energia projetada para levar os LLMs aos wearables. Para os desenvolvedores, isso fornece um caminho único e validado para implantar modelos atuais e futuros com desempenho máximo e mínimo consumo de energia.

Aplicativos de destino

A Coral NPU foi projetada para permitir aplicativos de IA de borda com consumo de energia ultrabaixo e sempre ativos, particularmente focados em sistemas de detecção de ambiente. Seu principal objetivo é permitir experiências de IA durante todo o dia em wearables, smartphones e dispositivos de IoT (Internet das Coisas), minimizando o uso da bateria.

Os casos de uso potenciais incluem:

  • Consciência de contexto: detecção da atividade do usuário (por exemplo, caminhar, correr), da proximidade ou do ambiente (por exemplo, ambientes internos/externos, em movimento) para ativar os modos "não perturbe" ou outros recursos com consciência de contexto.
  • Processamento de áudio: detecção de voz e fala, identificação de palavras-chave, tradução ao vivo, transcrição e recursos de acessibilidade baseados em áudio.
  • Processamento de imagens: detecção de pessoas e objetos, reconhecimento facial, reconhecimento de gestos e pesquisa visual com baixo consumo de energia.
  • Interação com o usuário: permitindo o controle por meio de gestos com as mãos, dicas de áudio ou outras entradas acionadas por sensores.

Privacidade aplicada por hardware

Um princípio fundamental da Coral NPU é aumentar a confiança do usuário por meio da segurança aplicada por hardware. Nossa arquitetura está sendo projetada para dar suporte a tecnologias emergentes como a CHERI, que fornece segurança refinada em nível de memória e compartimentação de software escalonável. Com essa abordagem, esperamos permitir que modelos de IA e dados pessoais confidenciais sejam isolados em um sandbox aplicado por hardware, mitigando ataques baseados em memória.

A criação de um ecossistema

O sucesso dos projetos de hardware aberto depende de parcerias sólidas. Para isso, estamos colaborando com a Synaptics, nossa primeira parceira estratégica de silício e líder em computação incorporada, conectividade sem fio e detecção multimodal para IoT. Hoje, no Tech Day, a Synaptics anunciou sua nova linha Astra™ SL2610 de processadores de IoT nativos de IA. Essa linha de produtos apresenta o subsistema Torq™ NPU da empresa, a primeira implementação em produção da arquitetura Coral NPU do setor. O design da NPU é compatível com transformadores e dá suporte a operadores dinâmicos, permitindo que os desenvolvedores criem sistemas de IA de borda prontos para o futuro da IoT industrial e de consumo.

Essa parceria reforça nosso compromisso com uma experiência unificada para os desenvolvedores. A plataforma de IA de borda Synaptics Torq™ foi criada com base em um compilador de código aberto e um ambiente de execução baseado em IREE e MLIR. Essa colaboração é um passo significativo para a criação de um padrão aberto e compartilhado para dispositivos inteligentes e com consciência de contexto.

A solução das principais crises da borda

Com a Coral NPU, estamos criando uma camada fundamental para o futuro da IA pessoal. Nosso objetivo é promover um ecossistema vibrante ao fornecer uma plataforma de código aberto comum e segura para o setor. Isso capacita desenvolvedores e fornecedores de silício a ir além do cenário fragmentado de hoje e colaborar em um padrão compartilhado para a computação de borda, acelerando a inovação. Saiba mais sobre a Coral NPU e comece a criar hoje mesmo.

Agradecimentos

Gostaríamos de agradecer aos principais colaboradores e à equipe de liderança por este trabalho, em particular a Billy Rutledge, Ben Laurie, Derek Chow, Michael Hoang, Naveen Dodda, Murali Vijayaraghavan, Gregory Kielian, Matthew Wilson, Bill Luan, Divya Pandya, Preeti Singh, Akib Uddin, Stefan Hall, Alex Van Damme, David Gao, Lun Dong, Julian Mullings-Black, Roman Lewkow, Shaked Flur, Yenkai Wang, Reid Tatge, Tim Harvey, Tor Jeremiassen, Isha Mishra, Kai Yick, Cindy Liu, Bangfei Pan, Ian Field, Srikanth Muroor, Jay Yagnik, Avinatan Hassidim e Yossi Matias.