저희는 Google I/O에서 텍스트와 이미지 입력을 지원하는 Gemma 3n을 미리 선보였고 Github에 Google AI Edge Gallery 앱을 출시했습니다. Google AI Edge Gallery는 오픈소스의 대화형 모델로, 온디바이스 AI 모델을 기반으로 하는 환경 개발 착수에 필요한 문서에 대한 직접 링크, 실용적인 예제, 투명한 성능 측정항목을 제공하여 개발자에게 영감을 주고 개발자를 지원하도록 설계되었습니다. 반응은 정말 뜨거웠습니다. 2개월 만에 50만 건의 APK 다운로드 횟수를 기록해 강력한 비공개 온디바이스 생성형 AI에 대해 커뮤니티가 얼마나 열광했는지 잘 보여주었습니다.
오늘은 Google AI Edge 스택에 오디오 모달리티를 추가하고 Google AI Edge Gallery를 Google Play 스토어로 가져오는 두 가지 큰 진전을 이루어 기쁩니다.
텍스트와 비전 외에도, 이제 Google AI Edge 스택은 오디오를 지원합니다. 이 기능을 갖춘 Google의 최초 모델은 Android 및 Web용 MediaPipe LLM Inference API를 통해 액세스할 수 있는 Gemma 3n입니다. 오디오 이해 능력은 다음과 같은 강력하고 새로운 온디바이스 기능을 가능하게 합니다.
이 초기 버전에서 MediaPipe LLM Inference API는 최대 30초 길이의 클립에 대한 오디오 배치 추론을 지원합니다. 저희가 계획 중인 다음 순서는 스트리밍 오디오 지원입니다.
이 새로운 모달리티를 직접 경험할 수 있도록 Google AI Edge Gallery에 새로운 'Audio Scribe' 기능을 추가했습니다. Audio Scribe를 사용하면 오디오 클립을 업로드 하거나, 기기의 마이크를 사용해 소리를 녹음할 수 있으며, 인터넷 연결 없이도 Gemma 3n이 휴대전화에서 직접 음성을 스크립트로 작성하는 모습을 볼 수 있습니다.
이처럼 강력한 데모를 그 어느 때보다 쉽게 접할 수 있도록, 이제 Google AI Edge Gallery가 Google Play 스토어에서 공개 베타 버전으로 제공됩니다. 코드는 Github에 계속 오픈소스로 제공될 예정입니다. 덕분에 Play 스토어를 통해 가장 쉽게 데모를 체험하는 방식과 GitHub에서 전체 소스 코드를 탐색할 수 있는 두 가지 이점을 모두 누릴 수 있습니다.
이것은 단지 시작에 불과합니다. 저희의 목표는 Google AI Edge Gallery를 온디바이스 AI를 위한 가장 영감을 주고 가장 유용한 쇼케이스로 만드는 것입니다. 앞으로 몇 달 동안 다음과 같은 일을 진행할 계획입니다.
Play 스토어에서 앱을 다운로드하거나 Github의 오픈소스 프로젝트를 확인해 보세요. 여러분이 개발할 앱이 정말 기대됩니다!
감사의 말(알파벳순)
Alice Zheng, Chunlei Niu, Cormac Brick, Deepak Nagaraj Halliyavar, Fengwu Yao, Grant Jensen, Ho Ko, Ireneu Pla, Ivan Grishchenko, Jae Yoo, Jae Yoo, Jianing Wei, Jing Jin, Joe Zou, Juhyun Lee, Karthik Raveendran, Kris Wright, Lin Chen, Lu Wang, Marissa Ikonomidis, Mark Sherwood, Matsvei Zhdanovich, Matthias Grundmann, Na Li, Ram Iyengar, Raman Sarokin, Rishika Sinha, Ronghui Zhu, Sachin Kotwani, Sebastian Schmidt, Suleman Shahid, Terry (Woncheol) Heo, Vladimir Kirilyuk, Wai Hon Law, Weiyi Wang, Yasir Modak, Yite Lu, Youchuan Hu, Yu-hui Chen, Zi Yuan