生成式 AI 从根本上重塑了我们对技术的期望。我们已经看到大量基于云的强大模型以令人难以置信的方式进行创建、推理和协助。然而,下一次伟大的技术飞跃不仅仅是让云模型变得更大,而是将其智能直接嵌入到周围的个人环境中。为了让 AI 发挥真正的辅助作用(积极帮助我们度过每一天,实时翻译对话或理解我们的物理环境),它必须在我们佩戴和携带的设备上运行。这带来了一个核心挑战:将环境 AI 嵌入到电量有限的边缘设备中,让这些设备脱离云,提供真正的私人全天辅助体验。
要从云端转向个人设备,我们必须解决三个关键问题:
今天,我们推出了 Coral NPU,这是一个全栈平台,建立在 Coral 的原始工作基础上,为硬件设计人员和机器学习开发者提供构建新一代高效私人边缘 AI 设备所需的工具。Coral NPU 是我们与 Google Research 和 Google DeepMind 合作设计的成果,采用 AI 为先的硬件架构,旨在实现新一代超低功耗、始终可用的边缘 AI。开发者可获得统一的体验,更容易部署环境感知等应用。Coral NPU 经过专门设计,能在可穿戴设备上启用全天候 AI,同时最大限度地降低电池用量,并可针对更高性能的用例进行配置。我们已发布相关文档和工具,开发者和设计师可以立即开始构建。
为低功耗边缘设备构建内容的开发者面临着一项基本权衡:在通用 CPU 和专用加速器之间进行选择。通用 CPU 提供重要的灵活性和广泛的软件支持,但缺乏针对要求苛刻的机器学习工作负载的特定领域架构,这使其性能不足,能效低下。相反,专门的加速器提供较高机器学习效率,但缺乏灵活性,难以编程,不适合一般任务。
这个硬件问题还会因高度碎片化的软件生态系统而加剧。由于 CPU 和机器学习块的编程模型截然不同,开发者通常被迫使用专用编译器和复杂的命令缓冲区。这会迫使开发者短期学习大量知识,并且很难结合不同计算单元的独特优势。因此,该行业缺乏可以轻松有效支持多个机器学习开发框架的成熟低功耗架构。
Coral NPU 架构通过颠覆传统芯片设计直接解决此问题。它优先考虑机器学习矩阵引擎而不是标量计算,从硬件开始优化 AI 的架构,并创建专为更高效的设备端推理而构建的平台。
作为一个完整的参考神经处理单元 (NPU) 架构,Coral NPU 为下一代针对机器学习优化的节能片上系统 (SoC) 提供了基本模块。该架构基于一组符合 RISC-V ISA 标准的架构 IP 块,旨在实现最小功耗,因此成为始终可用环境感知的理想选择。其基本设计可在 512 GOPS(每秒千兆运算数)的范围内提供高性能,同时仅消耗几毫瓦功率,因此能为边缘设备、可听设备、AR 眼镜和智能手表提供强大的设备端 AI。
            
            
        基于 RISC-V 的开放式可扩展架构使 SoC 设计人员能够灵活地修改基本设计,或将其用作预配置的 NPU。Coral NPU 架构包括以下组件:
            
            
        Coral NPU 架构是一个简单的 C 语言编程目标,可以与 IREE 和 TFLM 等现代编译器无缝集成。这能轻松支持机器学习框架,如 TensorFlow、JAX 和 PyTorch。
Coral NPU 整合了全面的软件工具链,包括专门的解决方案,如用于 TensorFlow 的 TFLM 编译器,以及通用 MLIR 编译器、C 语言编译器、自定义内核和模拟器。这为开发者提供了灵活的途径。例如,使用 StableHLO 方言先将 JAX 等框架中的模型导入到 MLIR 格式。随后系统会将此中间文件馈送到 IREE 编译器中,后者用特定于硬件的插件来识别 Coral NPU 的架构。然后,编译器对代码执行逐渐降级。这是一个关键的优化步骤,通过一系列方言系统地翻译代码,使其更接近计算机的原生语言。优化后,工具链生成一个紧凑的最终二进制文件,该文件可在边缘设备上高效执行。这套行业标准的开发者工具有助于简化机器学习模型的编程,并可在各种硬件目标之间实现一致的体验。
            
            
        Coral NPU 的共同设计流程侧重于两个关键领域。首先,该架构有效地加速了当今设备端视觉和音频应用中使用的基于编码器的领先架构。第二,我们正在与 Gemma 团队密切合作,为小型 Transformer 模型优化 Coral NPU,帮助确保加速器架构支持边缘的新一代生成式 AI。
这组双重关注意味着 Coral NPU 有望成为第一个基于标准的开放式低功耗 NPU,专用于将 LLM 引入可穿戴设备。对于开发者来说,这是一条经过验证的单一路径,可以用最小的功耗和最高的性能部署当前和未来的模型。
Coral NPU 旨在实现超低功耗、始终可用的边缘 AI 应用,尤其侧重于环境传感系统。其主要目标是在可穿戴设备、手机和物联网 (IoT) 设备上实现全天候的 AI 体验,并最大限度减少电池用量。
潜在的案例包括:
Coral NPU 的核心原则是通过硬件强制的安全性来建立用户信任。我们的架构旨在支持 CHERI 等新兴技术,该技术提供精细的内存级安全性和可扩展的软件分隔 (Compartmentalization) 功能。通过这种方法,我们希望能够将敏感的 AI 模型和个人数据隔离在硬件强制的沙盒中,从而减轻基于内存的攻击。
开放式硬件项目的成功要依靠强大的合作伙伴关系。为此,我们正在与 Synaptics 合作。Synaptics 是我们首位战略硬件合作伙伴,也是 IoT 嵌入式计算、无线连接和多模态传感领域的领导者。今天是 Synaptics 的技术日,他们宣布推出全新 Astra™ SL2610 系列 AI 原生 IoT 处理器。该产品线采用 Torq™ NPU 子系统,这是业界首个采用 Coral NPU 架构的生产实现。NPU 的设计支持 Transformer,并支持动态运算符,这使开发者能够为消费者和工业 IoT 构建面向未来的边缘 AI 系统。
这种合作关系支持我们实现对于统一开发者体验的承诺。Synaptics Torq™ 边缘 AI 平台基于以 IREE 和 MLIR 为基础的开源编译器和运行时构建。此次合作是为可进行情景感知的智能设备构建共享的开放标准而迈出的重要一步。
我们正在使用 Coral NPU 为个人 AI 的未来构建基础。我们的目标是通过为行业提供通用且开源的安全平台,打造充满活力的生态系统。这使开发者和硬件供应商能够走出当今碎片化环境的泥潭,在边缘计算的共享标准上协作,从而更快实现创新。欢迎了解有关 Coral NPU 的更多信息,并立即开始构建。
我们要感谢此项目的核心贡献者和领导团队,特别是 Billy Rutledge、Ben Laurie、Derek Chow、Michael Hoang、Naveen Dodda、Murali Vijayaraghavan、Gregory Kielian、Matthew Wilson、Bill Luan、Divya Pandya、Preeti Singh、Akib Uddin、Stefan Hall、Alex Van Damme、David Gao、Lun Dong、Julian Mullings-Black、Roman Lewkow、Shaked Flur、Yenkai Wang、Reid Tatge、Tim Harvey、Tor Jeremiassen、Isha Mishra、Kai Yick、Cindy Liu、Bangfei Pan、Ian Field、Srikanth Muroor、Jay Yagnik、Avinatan Hassidim 和 Yossi Matias。