Google AI Edge Gallery: Ahora con audio y en Google Play

5 DE SEPTIEMBRE DE 2025
Alice Zheng Product Manager

En Google I/O, lanzamos la versión preliminar de Gemma 3n con entradas de texto e imágenes y la aplicación Google AI Edge Gallery en Github. Google AI Edge Gallery es nuestro patio de recreo interactivo de código abierto diseñado para inspirar y permitir a los desarrolladores proporcionar ejemplos prácticos, métricas de rendimiento transparentes y enlaces directos a la documentación que necesitas para comenzar a crear experiencias basadas en modelos de IA en el dispositivo. La respuesta fue increíble, con 0.5 millones de descargas de APK en 2 meses, lo que demuestra el entusiasmo de la comunidad por una IA potente, privada y generativa en el dispositivo.

Hoy, nos complace dar dos grandes pasos: agregar la modalidad de audio a la pila de Google AI Edge y llevar Google AI Edge Gallery a Google Play Store.


Nuevas funciones de audio con Gemma 3n

Además del texto y la visión, la pila de Google AI Edge ahora admite audio. Nuestro primer modelo con esta función es Gemma 3n, accesible a través de la API de inferencia MediaPipe LLM para Android y para la web. La comprensión del audio revela nuevas y potentes funciones en el dispositivo, entre las que se incluyen las siguientes:

  • Transcripción de voz de alta calidad: transcribe audio a texto de una variedad de idiomas.

  • Voz a texto traducido: traduce el audio a texto en otro idioma.


En esta versión inicial, la API de inferencia de MediaPipe LLM admite la inferencia por lotes de audio para clips de hasta 30 segundos. La compatibilidad con transmisión de audio es nuestra próxima parada en nuestra hoja de ruta.


Pruébala tú mismo en Google AI Edge Gallery

Para que puedas experimentar esta nueva modalidad de primera mano, agregamos una nueva función de "Audio Scribe" a Google AI Edge Gallery. Con Audio Scribe, puedes cargar un clip de audio o usar el micrófono de tu dispositivo para grabar audio y ver cómo Gemma 3n lo transcribe directamente en tu teléfono, sin necesidad de conexión a Internet.

Para que sea posible acceder a estas poderosas demostraciones más fácil que nunca, Google AI Edge Gallery ahora está disponible en versión beta abierta en Google Play Store. El código seguirá siendo abierto en Github, lo que le brinda lo mejor de ambos mundos: la forma más simple de experimentar las demostraciones a través de Play Store y el código fuente completo para explorar en GitHub.


Lo que viene

Esto es solo el comienzo. Nuestro objetivo es hacer de Google AI Edge Gallery el escaparate más inspirador y útil para la IA en el dispositivo. En los próximos meses, planeamos lo siguiente:

  • Llevar la aplicación a los usuarios de iOS

  • Mostrar más ejemplos usando tareas de IA generativa de Google AI Edge, como la generación aumentada por recuperación (RAG) y las llamadas de función en el dispositivo

  • Trabajar con la comunidad para convertir, optimizar y publicar más modelos de código abierto en la comunidad Hugging Face LiteRT e integrarlos en la aplicación


Descarga la app desde Play Store o consulta el proyecto de código abierto en Github. ¡Tenemos muchas ganas de ver tus próximas creaciones!


Agradecimientos (en orden alfabético)

Alice Zheng, Chunlei Niu, Cormac Brick, Deepak Nagaraj Halliyavar, Fengwu Yao, Grant Jensen, Ho Ko, Ireneu Pla, Ivan Grishchenko, Jae Yoo, Jae Yoo, Jianing Wei, Jing Jin, Joe Zou, Juhyun Lee, Karthik Raveendran, Kris Wright, Lin Chen, Lu Wang, Marissa Ikonomidis, Mark Sherwood, Matsvei Zhdanovich, Matthias Grundmann, Na Li, Ram Iyengar, Raman Sarokin, Rishika Sinha, Ronghui Zhu, Sachin Kotwani, Sebastian Schmidt, Suleman Shahid, Terry (Woncheol) Heo, Vladimir Kirilyuk, Wai Hon Law, Weiyi Wang, Yasir Modak, Yite Lu, Youchuan Hu, Yu-hui Chen, Zi Yuan