La IA generativa cambió de manera rotunda nuestras expectativas respecto de la tecnología. Hoy conocemos el poder de los modelos basados en la nube a gran escala para crear, razonar y ayudar de maneras increíbles. Sin embargo, el próximo gran salto tecnológico implica no solo hacer que los modelos de nube sean más grandes, sino también integrar su inteligencia directamente en nuestro entorno inmediato y personal. Para que la IA sea verdaderamente asistencial, nos ayude proactivamente en nuestras tareas diarias, traduzca conversaciones en tiempo real o comprenda nuestro contexto físico, debe ejecutarse en los dispositivos que usamos y llevamos a todos lados. Este es el desafío central: integrar la IA ambiental en dispositivos perimetrales con batería limitada, liberándolos de la nube para permitir experiencias de asistencia realmente privadas durante todo el día.
Para pasar de la nube a los dispositivos personales, debemos resolver tres problemas críticos:
Hoy presentamos Coral NPU, una plataforma de pila completa que se basa en nuestro trabajo original de Coral y proporciona a los diseñadores de hardware y desarrolladores de aprendizaje automático las herramientas necesarias para crear la próxima generación de dispositivos perimetrales de IA privados y eficientes. Coral NPU, que se diseñó en colaboración con Google Research y Google DeepMind, es una arquitectura de hardware basada en IA creada para dar vida a la próxima generación de IA de potencia ultrabaja y siempre activa. Ofrece una experiencia de desarrollador unificada, lo que facilita la implementación de aplicaciones como la detección ambiental. Se diseñó específicamente para utilizar la IA durante todo el día en wearables. Asimismo, minimiza el uso de la batería y es configurable para casos de uso de mayor rendimiento. Publicamos nuestra documentación y nuestras herramientas para que los desarrolladores y diseñadores puedan comenzar a compilar hoy mismo.
Los desarrolladores que compilan para dispositivos perimetrales de baja potencia deben realizar un intercambio fundamental y elegir entre una CPU de uso general y aceleradores especializados. Las CPU de uso general ofrecen una flexibilidad esencial y un amplio soporte de software, pero carecen de la arquitectura específica del dominio para las cargas de trabajo de aprendizaje automático exigentes, por lo que son menos eficientes y tienen menos eficiencia energética. Por el contrario, los aceleradores especializados proporcionan una alta eficiencia de aprendizaje automático, pero son poco flexibles, difíciles de programar e inadecuados para tareas generales.
Este problema de hardware se magnifica debido a un ecosistema de software sumamente fragmentado. Frente a modelos de programación marcadamente diferentes para CPU y bloques de aprendizaje automático, los desarrolladores suelen verse ante la obligación de usar compiladores patentados y búferes de comandos complejos. De esta manera, se crea una curva de aprendizaje pronunciada y se dificulta la combinación de las fortalezas únicas de las diferentes unidades de cálculo. En consecuencia, la industria carece de una arquitectura madura y de bajo consumo que pueda soportar de manera fácil y efectiva múltiples marcos de trabajo de desarrollo de aprendizaje automático.
La arquitectura de Coral NPU aborda directamente este desafío invirtiendo el diseño tradicional de chips. Prioriza el motor de matriz de aprendizaje automático sobre el cómputo escalar, optimizando la arquitectura para la IA desde el silicio y creando una plataforma diseñada específicamente para lograr una inferencia más eficiente en el dispositivo.
Como una arquitectura completa de unidad de procesamiento neural (NPU) de referencia, Coral NPU proporciona los componentes básicos para la próxima generación de sistemas en chip (SoC) de bajo consumo y optimizados para aprendizaje automático. La arquitectura se basa en un conjunto de bloques de IP arquitectónicos compatibles con RISC-V ISA y se diseñó para lograr un consumo de energía mínimo, por lo que es ideal para una detección ambiental siempre activa. El diseño básico ofrece un rendimiento en el rango de 512 gigaoperaciones por segundo (GOP) mientras consume solo unos pocos milivatios, lo que ofrece una potente IA para dispositivos perimetrales, dispositivos de asistencia de audición, gafas de RA y relojes inteligentes.
            
            
        La arquitectura abierta y extensible basada en RISC-V brinda a los diseñadores de SoC flexibilidad para modificar el diseño básico o usarlo como una NPU preconfigurada. La arquitectura de Coral NPU incluye los siguientes componentes:
            
            
        La arquitectura de Coral NPU es un objetivo simple y programable en C que puede integrarse perfectamente con compiladores modernos como IREE y TFLM. Esto permite un fácil soporte para marcos de trabajo de aprendizaje automático como TensorFlow, JAX y PyTorch.
Coral NPU incorpora una completa cadena de herramientas de software, que incluye soluciones especializadas como el compilador TFLM para TensorFlow, además de un compilador MLIR de uso general, un compilador C, kernels personalizados y un simulador. De esta manera, se proporciona a los desarrolladores rutas de aprendizaje flexibles. Por ejemplo, un modelo de un marco de trabajo como JAX se importa primero al formato MLIR utilizando el dialecto StableHL. Este archivo intermedio se introduce en el compilador IREE, que aplica un complemento específico de hardware para reconocer la arquitectura de Coral NPU. Desde allí, el compilador realiza una reducción progresiva, un paso crítico de optimización en el que el código se traduce sistemáticamente a través de una serie de dialectos, acercándose al idioma nativo de la máquina. Después de la optimización, la cadena de herramientas genera un archivo binario final y compacto que está listo para una ejecución eficiente en el dispositivo perimetral. Este conjunto de herramientas de desarrollo estándar de la industria ayuda a simplificar la programación de modelos de aprendizaje automático y puede ofrecer una experiencia coherente en varios objetivos de hardware.
            
            
        El proceso de codiseño de Coral NPU se centra en dos áreas clave. En primer lugar, la arquitectura acelera de manera eficiente las principales arquitecturas basadas en codificadores que se utilizan en las aplicaciones actuales de visión y audio en el dispositivo. En segundo lugar, estamos colaborando estrechamente con el equipo de Gemma a fin de optimizar Coral NPU para modelos de transformadores pequeños, lo que ayuda a garantizar que la arquitectura del acelerador admita la próxima generación de IA generativa en el perímetro.
Este enfoque doble significa que Coral NPU está en camino de ser la primera NPU abierta, basada en estándares y de baja potencia, diseñada para llevar los LLM a los wearables. Brinda a los desarrolladores una ruta única y validada para implementar modelos actuales y futuros con el máximo rendimiento a una potencia mínima.
Coral NPU se diseñó para aplicaciones de IA de ultrabaja potencia y siempre en el perímetro, particularmente enfocadas en sistemas de detección ambiental. Su objetivo principal es facilitar experiencias de IA durante todo el día en wearables, teléfonos celulares y dispositivos de Internet de las cosas (IoT), y minimizar el uso de la batería.
Estos son algunos posibles casos de uso:
Un principio fundamental de Coral NPU es generar confianza en los usuarios a través de la seguridad implementada por hardware. Nuestra arquitectura se está diseñando para admitir tecnologías emergentes como CHERI, que proporciona una seguridad detallada en el nivel de la memoria y una compartimentación de software escalable. Con este enfoque, esperamos que los modelos confidenciales de IA y los datos personales se puedan aislar en una zona de pruebas implementada por hardware, lo que mitiga los ataques basados en la memoria.
Para que los proyectos de hardware de código abierto prosperen, es necesario contar con asociaciones sólidas. Con ese fin, estamos colaborando con Synaptics, nuestro primer socio estratégico de silicio y líder en computación integrada, conectividad inalámbrica y detección multimodal para IoT. Hoy, en su Tech Day, Synaptics anunció su nueva línea de procesadores de IoT nativos de la IA Astra™ SL2610. Esta línea de productos presenta el subsistema Torq™ NPU, la primera implementación de producción de la arquitectura Coral NPU en la industria. El diseño de la NPU es apto para transformadores y admite operadores dinámicos, lo que permite a los desarrolladores crear sistemas de IA de perímetro preparados para el futuro y para IoT de consumo e industrial.
Esta asociación respalda nuestro compromiso con una experiencia de desarrollo unificada. La plataforma de IA de perímetro Synaptics Torq™ se basa en un compilador de código abierto y un entorno de ejecución basado en IREE y MLIR. Esta colaboración es un paso importante hacia la creación de un estándar compartido y abierto para dispositivos inteligentes y con reconocimiento del contexto.
Con Coral NPU, estamos construyendo una capa fundamental para el futuro de la IA personal. Nuestro objetivo es fomentar un ecosistema vibrante proporcionando una plataforma común, de código abierto y segura que se pueda usar como base en la industria. De esta manera, se permite a los desarrolladores y proveedores de silicio ir más allá del panorama fragmentado de la actualidad y colaborar en un estándar compartido para la informática de vanguardia, lo que permite lograr una innovación más rápida. Obtén más información sobre Coral NPU y comienza a crear hoy mismo.
Nos gustaría agradecer a los principales colaboradores y al equipo de liderazgo por este trabajo, en particular a Billy Rutledge, Ben Laurie, Derek Chow, Michael Hoang, Naveen Dodda, Murali Vijayaraghavan, Gregory Kielian, Matthew Wilson, Bill Luan, Divya Pandya, Preeti Singh, Akib Uddin, Stefan Hall, Alex Van Damme, David Gao, Lun Dong, Julian Mullings-Black, Roman Lewkow, Shaked Flur, Yenkai Wang, Reid Tatge, Tim Harvey, Tor Jeremiassen, Isha Mishra, Kai Yick, Cindy Liu, Bangfei Pan, Ian Field, Srikanth Muroor, Jay Yagnik, Avinatan Hassidim y Yossi Matias.