2024 年 10 月 18 日,Google 举办了首届 Web AI 峰会,汇集了世界各地在网页浏览器的客户端使用机器学习模型的顶尖人才。这意味着在初始页面加载之后,所有这些解决方案都可以在客户端设备上完全离线运行,使用户受益于低延迟推断、低成本和隐私保护。
我们的演讲者阵容不仅有 Chrome 和 MediaPipe 等 Google 团队的成员,还包括活跃在该领域的 Intel、Hugging Face、Microsoft、LangChain 等第三方代表。从快速消费品检测到医疗解决方案,讲座涵盖了广泛的行业和主题领域,展示了 Web AI 可以达到的高度。
继续阅读以了解更多详情,或立即查看 YouTube 播放列表,亲自观看演讲!
我们收到了来自 22 个国家/地区、59 个城市和 179 个 Google 办事处的 1,100 多份报名,大家踊跃参与这场历史性盛会,全天座无虚席——很高兴看到大家对这些演讲的热情。
我们的观众包括软件工程师、业务决策者和执行领导层,这样的观众结构有助于在技术专业知识和战略规划之间形成富有成效的协同效应。
我们的专家演讲者分享了宝贵的见解,为 Javascript 开发者提供关于精密复杂的 AI 功能的知识,而这些功能正在成为满足客户需求的业界标准。请在下方查看所有演讲,或在休息时间亲自观看。
Jason Mayes - Google Web AI 负责人
Jim Bankoski - Chrome 工程副总裁,Google
2024 年 Web AI 现状概述以及 Web AI 峰会的创立原因。了解设备端机器学习的可能性及其发展方向,以便在观看本系列的其他演讲之前掌握基本知识。本讲座适合所有人,涵盖生成式 AI、LLM、扩散模型、WebGPU、WebAssembly 和新兴 API(如 WebNN)等主题领域,以及当今业界已经在使用 Web AI 的案例。
Joshua Lochner - Hugging Face 机器学习工程师 (Transformers.js)
了解Transformers.js,一个令人兴奋的全新 JavaScript 库,它让开发者能够构建前所未有的 Web 应用。该库经过特殊设计,在功能上等同于 Hugging Face 的 Python Transformer 库,并支持各种任务和模态的 120 多个架构。用户可以从 1,000 多种预训练模型中选择,也可以将自己的模型转换为在浏览器中本地运行,从而提供隐私保护、低延迟和可扩展的机器学习。最新增加的 WebGPU 支持直接在浏览器中使用现代 GPU 功能,从而实现模型的高性能执行。
Rob Kochman - Google 小组产品经理 (Chrome)
Rafael Cintron - Microsoft 首席软件设计工程师
高级 Web 技术(如 WebAssembly 和 WebGPU)最近为浏览器带来了真正的 AI 功能。Web 神经网络 (WebNN) API 旨在立足于这一势头,使 AI 工作负载能够在各种设备上更快、更高效地运行,包括具有 AI 加速器硬件 (NPU) 的设备,而所有这些都基于 Web 标准。本场会议将首先简要概述 WebNN,然后介绍最近的进展,包括 API 形态、设备支持、框架支持和浏览器实现。我们还将介绍未来的计划,以期获取社区的反馈。
Moh Haghighat - Intel 研究员
英特尔展示了 WebNN,这是一种新兴的统一 W3C Web 标准 API,用于在客户端 AI 执行引擎(CPU、GPU 和 NPU)进行设备端 Web ML 加速。WebNN 目前已在 Chrome 和 Edge 浏览器上提供开发者预览版,并集成在流行的机器学习框架(例如 ONNX Runtime Web)中,提供了“接近原生”的性能和功耗特性。我们将展示令人兴奋的 WebNN 演示和应用预览,为 Web 带来全新体验。
Aidan Nelson - ML5.js 客座研究员,纽约大学
本次演讲的重点是 ml5.js,这是一个建立在 TensorFlow.js 之上的开源库,旨在让广大艺术家、创意程序员和学生轻松上手机器学习。该项目是纽约大学 ITP 计划的一项协作工作,灵感源自致力于使编码更轻松和包容的 Processing 和 p5.js 项目。ml5.js 旨在将这一使命扩展到机器学习领域,弥合机器学习的技术复杂性与初学者和艺术家的创造力之间的鸿沟。
Charlie Ruan - 卡内基梅隆大学学生研究员
本次演讲介绍了 WebLLM,这是一款高性能的浏览器内 LLM 推理引擎。WebLLM 允许构建快速(通过 WebGPU 实现本机 GPU 加速)、私密(100% 客户端计算)和便捷(零环境设置)的 AI 驱动型 Web 应用。对于开发者,WebLLM 的 OpenAI API 风格接口可用于标准化集成,支持聊天应用和生成高效的结构化 JSON,并为 Web/Service Worker 提供内置支持,以将后端执行与 UI 流分开。在本次演讲中,我们将探讨 WebLLM 的主要功能、整体架构,以及开发者如何使用它构建 AI 驱动型 Web应用。
Jacob Lee - LangChain 创始工程师
WebLLM、Transformers.js 和 Chrome AI 等项目的新进展使本地 LLM 对浏览器使用者触手可及。这具有扩展 Web 开发前沿的巨大潜力,但这些小型模型比最先进的托管模型受到更多限制,在设计和提示方面需要更仔细的考虑。
本次演讲的重点是通过实用应用的技术来解决这些限制,这些应用程序使用 LangGraph.js(一个用于编排有状态 LLM 应用的新框架)提供的强大工具包,从而充分利用小型模型。
Ruofei Du - Google 交互式感知与图形主管
Visual Blocks for ML是一个可视化编程平台,支持快速设计 AI 和多媒体原型。在本次演讲中,我们将展示如何使用简单的拖放操作来构建交互式 AI 流水线、执行交互式数据增强以及使用实时数据测试管道。我们还将重点介绍一系列社区贡献的流水线和自定义节点,它们展示了在交互式图形、大型语言模型链、计算机视觉和多模态解决方案中的多种应用。最后,我们鼓励所有 Web AI 从业者贡献自己的 ML 流水线和自定义节点,进一步丰富共享平台并激发创新用例。
Charlie Gerard - CrowdStrike 高级研究工程师
AI 领域的最新进展主要集中在大型语言模型以及创建与使用内容的新方法上。不过,AI 也让我们有机会重新思考与接口的交互方式。利用 JavaScript 和专注于身体跟踪或音频分类的模型,Web 开发者将有独特的机会尝试其他交互方式,以创建更具创新性的 Web 体验。
Kenji Baheux - Chrome 产品经理,Google
分享我们在 Chrome 内置 AI 方面的进展、收获以及接下来的计划。我们将讨论对 Prompt API 的看法、高级任务 API(如总结、写作/重写)的情况、从早期预览版中获得的经验,以及我们的未来计划。
Hugo Zanini - Nubank 技术项目负责人
本次演讲展示了全球十大快速消费品公司之一如何利用 Web AI 在巴西扩展其店内营销策略,以及该策略如何演变为对行业其他公司有利的开源项目。
Thomas Steiner - Chrome 开发者关系工程师,Google
在这次演讲中,Thomas 总结了开发者关系团队作为 Chrome 内置 API 的零号客户所学到的一些经验。他将以一个 AI 驱动的同义词查找应用为例,展示如何使用 Prompt API,重点讲解从调整提示、可靠地解析输出到优化应用以获得最佳性能的各个方面。
Yuriko Hirota - Google 合作伙伴解决方案工程师
Kazunari Hara - CyberAgent 开发者专家
这场闪电秀展示了客户端 AI 的实用威力,不仅是为了使用 AI,也是为了增强用户体验。该演讲深入探讨了 2024 年 Google I/O 大会上的真实案例研究,展示了日本顶级博客服务背后的强大公司 CyberAgent 如何利用客户端 AI 的魔力,轻松生成博客标题。加入我们,了解 CyberAgent 如何利用创新用例设计和以用户为中心的方法,最大限度地发挥客户端 AI 的潜力。
David Li - Chrome 产品经理,Google
在本次演讲中,我们将展示 AI 和 Chrome 扩展的潜力。Chrome 扩展程序让您可以控制浏览器、观察网页内容并添加自己的用户界面。将 AI 和 Chrome 扩展相结合,可以使浏览体验更有帮助且更高效。本演讲将概述现在 WebStore 上的扩展如何使用 AI,以及我们认为的最大潜力所在。
Evgeny Peshkov - GEENEE 首席技术官
了解 Web AI 如何在每个屏幕上引入突破性的虚拟试用广告,从而彻底改变个性化付费媒体。
Tyler Mullen - Mediapipe 资深软件工程师,Google
了解 MediaPipe 构建 AI 流水线并将其引入浏览器的跨平台方法。我们将重点介绍我们方法的一些好处,并讨论我们支持的一些主要产品(如Google Meet)。然后,我们将介绍我们的最新技术进步和开发者 API。这些产品包括针对图像分割等传统机器学习任务和 LLM 推理等生成式 AI 任务的解决方案。最后,我们将通过一些激动人心的演示来展望未来!
Chris Slee - Include Health 首席技术官
IncludeHealth 是一家虚拟物理治疗提供商,利用 Web AI 的力量打破物流和经济障碍,让问诊者随时随地在任何设备上接受个性化、可量化的护理。
Richard Stotz - Core ML 软件工程师,Google
了解我们如何构建 Simple ML for Sheets,这是一款免费的 Google 表格插件,用于机器学习和 AI。Simple ML for Sheets 使用由 WebAssembly、Javascript 和 Chrome 的新内置 AI 提供支持的设备端机器学习,为所有用户解锁高级机器学习任务。本演讲重点介绍了我们成功将 Simple ML for Sheets 推向市场所使用的工具,以及我们团队的开源库如何帮助开发者在 Web 上取得自己的机器学习成功。
如果没有参与组织和运营的众多人员,此次活动将无法实现。我们要感谢活动的 3 位组织者 Jason Mayes、Jenna Zheng 和 Marcus Chang,当然也要衷心感谢上面列出的所有演讲者、当天的协助人员和助理,还有确保活动顺利录制,供您在会后观看的 AV 团队。
如果您这次错过了活动,请观看上面的视频,并务必订阅我们的公共 Web AI 简报,以便在我们下次直播时收到通知!