En Google I/O, lanzamos la versión preliminar de Gemma 3n con entradas de texto e imágenes y la aplicación Google AI Edge Gallery en Github. Google AI Edge Gallery es nuestro patio de recreo interactivo de código abierto diseñado para inspirar y permitir a los desarrolladores proporcionar ejemplos prácticos, métricas de rendimiento transparentes y enlaces directos a la documentación que necesitas para comenzar a crear experiencias basadas en modelos de IA en el dispositivo. La respuesta fue increíble, con 0.5 millones de descargas de APK en 2 meses, lo que demuestra el entusiasmo de la comunidad por una IA potente, privada y generativa en el dispositivo.
Hoy, nos complace dar dos grandes pasos: agregar la modalidad de audio a la pila de Google AI Edge y llevar Google AI Edge Gallery a Google Play Store.
Además del texto y la visión, la pila de Google AI Edge ahora admite audio. Nuestro primer modelo con esta función es Gemma 3n, accesible a través de la API de inferencia MediaPipe LLM para Android y para la web. La comprensión del audio revela nuevas y potentes funciones en el dispositivo, entre las que se incluyen las siguientes:
En esta versión inicial, la API de inferencia de MediaPipe LLM admite la inferencia por lotes de audio para clips de hasta 30 segundos. La compatibilidad con transmisión de audio es nuestra próxima parada en nuestra hoja de ruta.
Para que puedas experimentar esta nueva modalidad de primera mano, agregamos una nueva función de "Audio Scribe" a Google AI Edge Gallery. Con Audio Scribe, puedes cargar un clip de audio o usar el micrófono de tu dispositivo para grabar audio y ver cómo Gemma 3n lo transcribe directamente en tu teléfono, sin necesidad de conexión a Internet.
Para que sea posible acceder a estas poderosas demostraciones más fácil que nunca, Google AI Edge Gallery ahora está disponible en versión beta abierta en Google Play Store. El código seguirá siendo abierto en Github, lo que le brinda lo mejor de ambos mundos: la forma más simple de experimentar las demostraciones a través de Play Store y el código fuente completo para explorar en GitHub.
Esto es solo el comienzo. Nuestro objetivo es hacer de Google AI Edge Gallery el escaparate más inspirador y útil para la IA en el dispositivo. En los próximos meses, planeamos lo siguiente:
Descarga la app desde Play Store o consulta el proyecto de código abierto en Github. ¡Tenemos muchas ganas de ver tus próximas creaciones!
Agradecimientos (en orden alfabético)
Alice Zheng, Chunlei Niu, Cormac Brick, Deepak Nagaraj Halliyavar, Fengwu Yao, Grant Jensen, Ho Ko, Ireneu Pla, Ivan Grishchenko, Jae Yoo, Jae Yoo, Jianing Wei, Jing Jin, Joe Zou, Juhyun Lee, Karthik Raveendran, Kris Wright, Lin Chen, Lu Wang, Marissa Ikonomidis, Mark Sherwood, Matsvei Zhdanovich, Matthias Grundmann, Na Li, Ram Iyengar, Raman Sarokin, Rishika Sinha, Ronghui Zhu, Sachin Kotwani, Sebastian Schmidt, Suleman Shahid, Terry (Woncheol) Heo, Vladimir Kirilyuk, Wai Hon Law, Weiyi Wang, Yasir Modak, Yite Lu, Youchuan Hu, Yu-hui Chen, Zi Yuan