Más allá del inglés: cómo los modelos abiertos de Gemma están cerrando la brecha lingüística

20 DE DICIEMBRE DE 2024

Francesca Di Felice Developer Brand & Reputation Marketing

En Google, creemos que la IA debería ser útil para todos. Pero es difícil que la IA sea inclusiva cuando tantos de los modelos de lenguaje grandes (LLM) más importantes solo entienden una pequeña fracción de los miles de idiomas que se hablan en todo el mundo. Esto hace que muchos modelos pasen por alto involuntariamente las diferencias culturales y lingüísticas que hacen que cada sociedad sea única, lo que limita los inmensos beneficios que los LLM pueden ofrecer a miles de millones de personas.

Con Gemma, nuestra familia de modelos de código abierto ligeros y eficientes, los desarrolladores e investigadores de todo el mundo ahora tienen las herramientas para crear LLM que aborden estas diferencias culturales específicas. Aprovechando la misma investigación y tecnología utilizada para crear Gemini, Gemma comprende de manera eficaz el texto en todos los idiomas, lo que permite obtener un mejor rendimiento multilingüe, costos reducidos y una mayor flexibilidad para crear una IA verdaderamente inclusiva.

Equipos como los de INSAIT y AI Singapore ya cuentan con las herramientas para crear nuevas posibilidades utilizando variantes de Gemma. Los recientes lanzamientos de INSAIT de BgGPT, un modelo búlgaro de vanguardia basado en gemma-2-27b, y de SEA-LIONv3 de AI Singapore, un nuevo modelo innovador para los idiomas del sudeste asiático basado en gemma-2-9b, muestra cómo a través de la combinación de su conocimiento cultural y experiencia en IA, ambos equipos lograron crear nuevos LLM que satisfacen las necesidades únicas de sus comunidades.

¿Sientes la inspiración? Puedes contribuir a ampliar los límites de la inclusión y la innovación en IA si participas del concurso Desbloquear la comunicación global con Gemma en Kaggle, abierto hasta el 14 de enero.

SEA-LION: creación de LLM para diversas comunidades del Sudeste Asiático

Reconociendo que los diversos idiomas y culturas del Sudeste Asiático (SEA) estaban subrepresentados en los LLM existentes, los desarrolladores de AI Singapore crearon SEA-LION para reflejar mejor los matices, contextos y diversidad cultural de la región. Esta familia de modelos ya tuvo un impacto inmenso en las comunidades locales del SEA. Por ejemplo, el último modelo de SEA-LION basado en Gemma es la base de Sahabat-AI, un LLM indonesio creado por GoTo para alimentar el asistente de voz de IA en las apps GoPay y Gojek. Permite a millones de indonesios utilizar de forma más natural estos servicios de apps en sus idiomas y dialectos locales.

El mayor desafío para crear un LLM líder en idiomas del SEA fue encontrar datos de entrenamiento diversos y de alta calidad. Es por eso que el equipo colaboró con Google DeepMind y Google Research en Project SEALD, un esfuerzo para mejorar los conjuntos de datos que se pueden usar para entrenar, ajustar y evaluar modelos de lenguaje grandes (LLM) en idiomas que se hablan en todo el sudeste asiático. El equipo también debía asegurarse de que los datos que utilizaran fueran relevantes, por lo que fue necesario filtrar el contenido de los juegos de azar o los anuncios que no reflejaban el verdadero patrimonio lingüístico y cultural de la región. Para abordar este desafío, crearon un grupo de trabajo de hablantes nativos y lingüistas a fin de garantizar que la traducción de cada modelo fuera precisa y natural para los usuarios de diferentes orígenes.

A scatterplot graph plotting the relationship between SEA-LION’s English Tasks performance and SEA Average performance.

Comparativa en la que se muestra la relación entre el rendimiento de las tareas en inglés de SEA-LION y el rendimiento de SEA.

La versión V3, última de SEA-LION, es la más avanzada del equipo hasta la fecha. Preentrenada de forma continua en Gemma 2-9B, esta versión mejora significativamente el dominio multilingüe y el rendimiento de las tareas, lo que la convierte en el modelo de mejor rendimiento hasta la fecha. Esta versión también es compatible con 11 idiomas del Sudeste Asiático, así como con los principales dialectos, como el javanés y el sondanés, al tiempo que mantiene un buen rendimiento en inglés.

Según William Tjhi, jefe de investigación aplicada para modelos básicos en AI Singapore, el equipo eligió el modelo de 9,000 millones de parámetros, en lugar del modelo base más grande, para garantizar una mayor accesibilidad: “Muchos usuarios del SEA tienen un ‘rendimiento limitado’ y es posible que no tengan los recursos computacionales necesarios para ejecutar inferencias a escala con modelos más grandes”.

INSAIT: creación de modelos lingüísticos en búlgaro líderes en Gemma 2

Los investigadores del Instituto de Ciencias de la Computación, Inteligencia Artificial y Tecnología (INSAIT) también lograron avances increíbles referidos a la inclusión en el idioma de IA al crear tres nuevos LLM para el idioma búlgaro. Los últimos modelos de INSAIT se basan en la familia Gemma 2 y superan a los modelos búlgaros mucho más grandes, al tiempo que mantienen las capacidades del modelo base Gemma 2, como el dominio del inglés y las matemáticas.

Los nuevos de LLM de INSAIT destacan el poder de cómo el desarrollo abierto de la IA puede impulsar la innovación en diversos contextos lingüísticos. El éxito del equipo demuestra cómo los LLM de código abierto colaborativos pueden igualar, y en casos superar, las capacidades de los modelos patentados más grandes.

A bar graph showing INSAIT’s latest models’ performance in Bulgarian (blue) versus previous models’ performance (grey).

Comparativa que muestra el rendimiento de los últimos modelos de INSAIT en búlgaro (azul) frente al rendimiento de los modelos anteriores (gris).

Los modelos de vanguardia de idioma búlgaro que creó INSAIT demuestran un enfoque escalable para otros idiomas. Sus investigadores agregaron muchas mejoras con respecto al modelo base Gemma 2, incluido el preentrenamiento continuo en alrededor de 85,000 millones de tokens en búlgaro. También incluyeron un nuevo preentrenamiento continuo, ajuste de las indicaciones y un esquema de fusión de modelos basado en una nueva investigación de EMNLP 2024, una conferencia popular sobre procesamiento del lenguaje natural. La investigación presenta un nuevo método para mitigar la “interferencia catastrófica”, un fenómeno en el que los modelos de IA olvidan las habilidades previamente aprendidas (inglés, matemáticas) después de haber sido entrenados en otras nuevas (búlgaro).

"El resultado mostrado por INSAIT es significativo porque demuestra visiblemente que incluso un país del tamaño de Bulgaria puede construir sus propios modelos de IA de última generación basándose en modelos abiertos, investigación avanzada de IA y técnicas especiales de adquisición y entrenamiento de datos. ", dijo Martin Vechev, profesor titular en ETH Zurich y director científico de INSAIT. "Si bien nuestros modelos apuntan al búlgaro, el método de ramificación y fusión que introdujimos en EMNLP 2024 para mitigar el olvido catastrófico se aplica a. Adquirir nuevos idiomas”.

Chat preference in Bulgarian based on GPT4o-as-a-Judge

Hoy, los modelos de código abierto de INSAIT proporcionan acceso gratuito a modelos de idioma búlgaro de alto rendimiento, lo que demuestra un claro avance en el procesamiento de lenguaje natural dentro de Bulgaria y ofrece mayores oportunidades a otras personas interesadas en desarrollar soluciones de IA localizadas. El INSAIT incluso lanzó un sistema de chat público a nivel nacional basado en sus variantes del modelo BgGPT-Gemma. Esta es la primera vez que una institución gubernamental europea lanza un sistema de chat a nivel nacional basado en sus propios modelos de IA generativa, que están disponibles públicamente y son gratuitos y de código abierto.

Conexión de comunidades a través de la IA

El lanzamiento de estos modelos de código abierto de AI Singapore e INSAIT representa un paso importante hacia la democratización del acceso a la IA y el empoderamiento de las comunidades locales. Ambos equipos destacan la importancia de la diversidad lingüística en el desarrollo de soluciones de IA y demostraron que se puede lograr fácilmente a través de soluciones de modelos de código abierto como Gemma.

Las posibilidades con los LLM localizados son enormes y nos enorgullece ver a desarrolladores ambiciosos utilizar las últimas tecnologías de IA en la creación de nuevas oportunidades para sus comunidades. Es por eso que invitamos a cualquier persona que se sienta inspirada por estas historias a participar en nuestro concurso Kaggle centrado en adaptar la familia de modelos de código abierto de Gemma 2 para 73 idiomas posibles.

Con esta diversa selección de idiomas, estamos recopilando una base de recursos y prácticas recomendadas para ayudar a los desarrolladores a crear LLM mejores y más inclusivos para las comunidades de todo el mundo. Participa en la competencia hoy. La fecha límite de presentación final es el 14 de enero de 2025.