Google I/O は、テキストと画像の入力に対応した Gemma 3n プレビュー版を公開し、Github で Google AI Edge Gallery アプリをリリースしました。Google AI Edge Gallery は、オープンソースのインタラクティブなプレイグラウンドです。実用的な例、透明性の高いパフォーマンス指標、およびオンデバイス AI モデルでエクスペリエンスを構築するために必要なドキュメントへの直接リンクを提供することで、デベロッパーにインスピレーションを与え、開発を支援するように設計されています。反響は非常に大きく、2 か月で APK が 50 万回ダウンロードされ、非公開の強力なオンデバイス生成 AI にコミュニティが期待していることが示されました。
本日、Google AI Edge スタックに音声モダリティを追加し、Google AI Edge Gallery を Google Play ストアに追加するという 2 つの大きなステップを踏むことができ、大変うれしく思います。
テキストとビジョンだけでなく、Google AI Edge スタックは音声にも対応しました。この機能を備えた Google で最初のモデルが Gemma 3n であり、Android 用およびウェブ用の MediaPipe LLM Inference API からアクセスできます。音声認識により、次のような強力な新しいオンデバイス機能を利用できるようになります。
この最初のリリースでは、MediaPipe LLM Inference API は最大 30 秒のクリップの音声バッチ推論をサポートしています。ストリーミング音声のサポートは、ロードマップにおいて次に導入される予定です。
この新しいモダリティを直接体験できるように、Google AI Edge Gallery に新機能「Audio Scribe」を追加しました。Audio Scribe を使用すると、音声クリップをアップロードしたり、デバイスのマイクを使用して音声を録音したり、Gemma 3n にスマートフォン上で直接文字起こしを行わせたりできます。インターネット接続は必要ありません。
これらの強力なデモをこれまで以上に身近にするために、Google AI Edge Gallery を Google Play ストアでオープンベータ版として利用可能にしました。コードは引き続き GitHub でオープンソースとして提供されるため、Play ストアでデモを手軽に体験でき、GitHub ではソースコード全体を自由に探求できるという利点を両立しています。
今回のリリースはほんの始まりにすぎません。Google AI Edge Gallery を、オンデバイス AI の最も刺激的で役立つショーケースにすることを目標としています。今後数か月以内に、次のことを計画しています。
Play ストアからアプリをダウンロードするか、Github のオープンソース プロジェクトを確認してください。皆さんが構築するものを見るのが楽しみです。
謝辞(アルファベット順)
Alice Zheng、Chunlei Niu、Cormac Brick、Deepak Nagaraj Halliyavar、Fengwu Yao、Grant Jensen、Ho Ko、Ireneu Pla、Ivan Grishchenko、Jae Yoo、Jae Yoo、Jianing Wei、Jing Jin、Joe Zou、Juhyun Lee、Karthik Raveendran、Kris Wright、Lin Chen、Lu Wang、Marissa Ikonomidis、Mark Sherwood、Matsvei Zhdanovich、Matthias Grundmann、Na Li、Ram Iyengar、Raman Sarokin、Rishika Sinha、Ronghui Zhu、Sachin Kotwani、Sebastian Schmidt、Suleman Shahid、Terry (Woncheol) Heo、Vladimir Kirilyuk、Wai Hon Law、Weiyi Wang、Yasir Modak、Yite Lu、Youchuan Hu、Yu-hui Chen、Zi Yuan