Presentamos EmbeddingGemma: el mejor modelo abierto para integraciones en el dispositivo

4 DE SEPTIEMBRE DE 2025
Min Choi Product Manager Google DeepMind
Sahil Dua Lead Research Engineer Google DeepMind

Nos complace presentar EmbeddingGemma, un nuevo modelo de integración abierto que ofrece el mejor rendimiento de su clase para su tamaño. Diseñado específicamente para la IA en el dispositivo, su diseño altamente eficiente de 308 millones de parámetros te permite crear aplicaciones utilizando técnicas como la generación aumentada de recuperación (RAG) y la búsqueda semántica que se ejecutan directamente en tu hardware. Ofrece integraciones privadas de alta calidad que funcionan en cualquier lugar, incluso sin conexión a Internet.

MTEB Score
EmbeddingGemma es comparable a otros modelos populares que son casi el doble de grandes.

Características de EmbeddingGemma:

  • El mejor de su clase: Es el modelo de incorporación de texto multilingüe abierto de más alto rango con menos de 500 millones de parámetros en el Massive Text Embedding Benchmark (MTEB). Basado en la arquitectura Gemma 3, EmbeddingGemma está entrenado para responder en más de 100 idiomas y es lo suficientemente pequeño como para funcionar con menos de 200 MB de RAM con cuantificación.

  • Pensado para trabajar sin conexión de manera flexible: Es pequeño, rápido y eficiente, y ofrece dimensiones de salida personalizables (de 768 a 128 a través de la representación Matryoshka) y una ventana de contexto de 2,000 tokens para ejecutarse en dispositivos de uso cotidiano, como teléfonos móviles, computadoras portátiles y de escritorio, y más. Está diseñado para funcionar con Gemma 3n, y juntos permiten nuevos casos de uso para flujos de procesamiento RAG para dispositivos móviles, búsqueda semántica y más.

Link to Youtube Video (visible only when JS is disabled)

Cómo EmbeddingGemma habilita los flujos de procesamiento RAG para dispositivos móviles

EmbeddingGemma genera incorporaciones, que son representaciones numéricas, en este caso, de texto (como oraciones y documentos), transformándolas en un vector de números para representar el significado en un espacio de alta dimensión. Cuanto mejores sean las incorporaciones, mejor será la representación del lenguaje, con todos sus matices y complejidades.

Al crear un flujo de procesamiento RAG, tienes dos etapas clave: recuperar el contexto relevante en función de la entrada de un usuario y generar respuestas basadas en ese contexto. Para realizar la recuperación, puedes generar la incorporación de la indicación de un usuario y calcular la similitud con las incorporaciones de todos los documentos de tu sistema. Esto te permite obtener los pasajes más relevantes para la consulta de un usuario. Luego, estos pasajes se pueden pasar a un modelo generativo, como Gemma 3, junto con la consulta original del usuario, para generar una respuesta contextualmente relevante, como comprender que necesitas el número del carpintero para obtener ayuda con las tablas del piso dañadas.

Para que este flujo de procesamiento RAG sea efectivo, la calidad del paso de recuperación inicial es fundamental. Las incorporaciones deficientes recuperarán documentos irrelevantes, lo que dará lugar a respuestas inexactas o sin sentido. Aquí es donde se destaca el rendimiento de EmbeddingGemma, proporcionando las representaciones de alta calidad necesarias para impulsar aplicaciones precisas y confiables en el dispositivo.


Calidad de última generación para su tamaño

EmbeddingGemma ofrece una comprensión de texto de última generación para su tamaño, con un rendimiento particularmente sólido en la generación de incorporaciones multilingües.

Consulta cómo se compara EmbeddingGemma con otros modelos de incorporación populares:

MTEB Multilingual v2
En un modelo compacto de 308 millones de parámetros, EmbeddingGemma es fuerte en tareas como recuperación, clasificación y agrupación en comparación con modelos de incorporación populares de tamaño similar.

Pequeño, rápido y eficiente

El modelo de 308 millones de parámetros se compone de aproximadamente 100 millones de parámetros del modelo y 200 millones de parámetros de incorporación. Está diseñado para ofrecer un alto rendimiento y un consumo mínimo de recursos.

  • A fin de brindar mayor flexibilidad, EmbeddingGemma aprovecha Matryoshka Representation Learning (MRL) para proporcionar múltiples tamaños de incorporación de un modelo. Los desarrolladores pueden usar el vector completo de 768 dimensiones para obtener la máxima calidad o truncarlo a dimensiones más pequeñas (128, 256 o 512) para aumentar la velocidad y reducir los costos de almacenamiento.

  • Superamos los límites de la velocidad con la incorporación de más de 15 ms de tiempo de inferencia (256 tokens de entrada) en EdgeTPU, lo que significa que tus funciones de IA pueden ofrecer respuestas en tiempo real para interacciones fluidas e inmediatas.

  • Gracias a que aprovechamos el entrenamiento consciente de la cuantificación (QAT), reducimos significativamente el uso de RAM a menos de 200 MB, al mismo tiempo que preservamos la calidad del modelo.


Sin conexión por diseño

EmbeddingGemma permite a los desarrolladores crear aplicaciones en el dispositivo, flexibles y centradas en la privacidad. Genera incorporaciones de documentos directamente en el hardware del dispositivo, lo que ayuda a garantizar que los datos confidenciales del usuario estén seguros. Utiliza el mismo tokenizador que Gemma 3n para el procesamiento de texto, lo que reduce la huella de memoria en aplicaciones RAG. Descubre las nuevas funciones de EmbeddingGemma, por ejemplo:

  • Buscar en tus archivos personales, mensajes de texto, correos electrónicos y notificaciones al mismo tiempo sin conexión a Internet

  • Chatbots personalizados, específicos de la industria y habilitados para funcionar sin conexión a través de RAG con Gemma 3n

  • Clasificar las consultas de los usuarios en llamadas a funciones pertinentes para ayudar a la comprensión del agente móvil


Además, si estos ejemplos no abarcan lo que necesitas, puedes ajustar EmbeddingGemma para un dominio, tarea o idioma en particular con nuestra guía de inicio rápido.

Cómo elegir el modelo de incorporación adecuado para tus necesidades

Nuestro objetivo es proporcionar las mejores herramientas para tus necesidades. Con este lanzamiento, ahora tienes un modelo de incorporación para cualquier aplicación.

  • Para casos de uso en dispositivos y sin conexión, EmbeddingGemma es tu mejor opción, ya que está optimizado para la privacidad, la velocidad y la eficiencia.

  • Para la mayoría de las aplicaciones de servidor a gran escala, explora nuestro modelo de incorporación de Gemini de última generación a través de la API de Gemini a fin de obtener la más alta calidad y el máximo rendimiento.


Comienza a usar EmbeddingGemma hoy mismo

Priorizamos hacer que EmbeddingGemma sea asequible desde el primer día y nos asociamos con desarrolladores para permitir el soporte en plataformas y frameworks populares. Comienza a crear hoy con la misma tecnología que potenciará las experiencias en las plataformas de Google, como Android, con las herramientas que ya usas.