在 Google I/O 大会上,我们预览了具备文本与图像输入能力的 Gemma 3n,并在 Github 上推出了 Google AI Edge Gallery 应用。Google AI Edge Gallery 是一个开源的交互式平台,旨在通过提供实用示例、透明的性能指标,以及直达相关文档的链接,来启发并助力开发者,帮助他们快速打造由设备端 AI 模型提供支持的体验。该应用反响热烈,两个月内 APK 下载量达 50 万次,彰显了社群对强大、私密的设备端生成式 AI 的浓厚兴趣。
今天,我们非常高兴地宣布取得了两项重大进展:向 Google AI Edge 技术栈添加音频模式,并将 Google AI Edge Gallery 引入 Google Play 商店。
除了文本和视觉之外,Google AI Edge 技术栈现已支持音频。首个具备这一能力的模型是 Gemma 3n,可通过 MediaPipe LLM 推理 API(Android 版和网页版)访问。音频理解为设备端带来了更强大的新功能,包括:
在此初始版本中,MediaPipe LLM 推理 API 支持最长 30 秒的音频片段批量推理。接下来我们的计划是实现流式音频支持功能。
为了让您亲身体验这一全新模式,我们在 Google AI Edge Gallery 中新增了“Audio Scribe”功能。使用 Audio Scribe,您可以上传音频片段或使用设备的麦克风录制音频,然后观看 Gemma 3n 直接在您的手机上进行转录,无需网络连接。
为了使这些强大的演示更加触手可及,我们现已在 Google Play 商店推出 Google AI Edge Gallery 的公开测试版。同时也会持续在 Github 上开源相关代码,这样您就能同时获得最佳体验:既可以通过 Play 商店最便捷地体验这些演示,也可以在 GitHub 上深入探索完整的源代码。
这仅仅是一个开始。我们的目标是将 Google AI Edge Gallery 打造成最具启发性、最实用的设备端 AI 展示平台。在接下来的数月中,我们计划:
请从 Play 商店下载应用,或者前往 Github 查看开源项目。我们热切期待看到您的杰作!
致谢(按字母顺序)
Alice Zheng、Chunlei Niu、Cormac Brick、Deepak Nagaraj Halliyavar、Fengwu Yao、Grant Jensen、Ho Ko、Ireneu Pla、Ivan Grishchenko、Jae Yoo、Jae Yoo、Jianing Wei、Jing Jin、Joe Zou、Juhyun Lee、Karthik Raveendran、Kris Wright、Lin Chen、Lu Wang、Marissa Ikonomidis、Mark Sherwood、Matsvei Zhdanovich、Matthias Grundmann、Na Li、Ram Iyengar、Raman Sarokin、Rishika Sinha、Ronghui Zhu、Sachin Kotwani、Sebastian Schmidt、Suleman Shahid、Terry (Woncheol) Heo、Vladimir Kirilyuk、Wai Hon Law、Weiyi Wang、Yasir Modak、Yite Lu、Youchuan Hu、Yu-hui Chen、Zi Yuan