Google AI Edge Gallery:现已支持音频并在 Google Play 上架

2025年9月5日
Alice Zheng Product Manager

在 Google I/O 大会上,我们预览了具备文本与图像输入能力的 Gemma 3n,并在 Github 上推出了 Google AI Edge Gallery 应用。Google AI Edge Gallery 是一个开源的交互式平台,旨在通过提供实用示例、透明的性能指标,以及直达相关文档的链接,来启发并助力开发者,帮助他们快速打造由设备端 AI 模型提供支持的体验。该应用反响热烈,两个月内 APK 下载量达 50 万次,彰显了社群对强大、私密的设备端生成式 AI 的浓厚兴趣。

今天,我们非常高兴地宣布取得了两项重大进展:向 Google AI Edge 技术栈添加音频模式,并将 Google AI Edge Gallery 引入 Google Play 商店。


Gemma 3n 的新音频功能

除了文本和视觉之外,Google AI Edge 技术栈现已支持音频。首个具备这一能力的模型是 Gemma 3n,可通过 MediaPipe LLM 推理 API(Android 版网页版)访问。音频理解为设备端带来了更强大的新功能,包括:

  • 高质量语音转文字:将音频转录为文本,支持多种口语语言。

  • 语音转翻译文本:将语音音频转换为另一种语言的文字内容。


在此初始版本中,MediaPipe LLM 推理 API 支持最长 30 秒的音频片段批量推理。接下来我们的计划是实现流式音频支持功能。


在 Google AI Edge Gallery 中亲自试用

为了让您亲身体验这一全新模式,我们在 Google AI Edge Gallery 中新增了“Audio Scribe”功能。使用 Audio Scribe,您可以上传音频片段或使用设备的麦克风录制音频,然后观看 Gemma 3n 直接在您的手机上进行转录,无需网络连接。

为了使这些强大的演示更加触手可及,我们现已在 Google Play 商店推出 Google AI Edge Gallery 的公开测试版。同时也会持续在 Github 上开源相关代码,这样您就能同时获得最佳体验:既可以通过 Play 商店最便捷地体验这些演示,也可以在 GitHub 上深入探索完整的源代码。


未来计划

这仅仅是一个开始。我们的目标是将 Google AI Edge Gallery 打造成最具启发性、最实用的设备端 AI 展示平台。在接下来的数月中,我们计划:

  • 向 iOS 用户推出这个应用。

  • 展示更多使用 Google AI Edge 生成式 AI 任务的示例,例如检索增强生成 (RAG) 和设备端函数调用。

  • 将应用从 MediaPipe LLM 推理 API 迁移到 LiteRT-LM,后者是我们全新的完全开源 LLM 运行时,从而为开发者提供更大的灵活性和透明度。

  • 与社群合作,转换并优化更多开源模型,然后将其发布到 Hugging Face LiteRT 社群,并集成到应用中。


请从 Play 商店下载应用,或者前往 Github 查看开源项目。我们热切期待看到您的杰作!


致谢(按字母顺序)

Alice Zheng、Chunlei Niu、Cormac Brick、Deepak Nagaraj Halliyavar、Fengwu Yao、Grant Jensen、Ho Ko、Ireneu Pla、Ivan Grishchenko、Jae Yoo、Jae Yoo、Jianing Wei、Jing Jin、Joe Zou、Juhyun Lee、Karthik Raveendran、Kris Wright、Lin Chen、Lu Wang、Marissa Ikonomidis、Mark Sherwood、Matsvei Zhdanovich、Matthias Grundmann、Na Li、Ram Iyengar、Raman Sarokin、Rishika Sinha、Ronghui Zhu、Sachin Kotwani、Sebastian Schmidt、Suleman Shahid、Terry (Woncheol) Heo、Vladimir Kirilyuk、Wai Hon Law、Weiyi Wang、Yasir Modak、Yite Lu、Youchuan Hu、Yu-hui Chen、Zi Yuan