Além do inglês: como os modelos abertos Gemma estão preenchendo a lacuna linguística

DEZ 20, 2024
Francesca Di Felice Developer Brand & Reputation Marketing

No Google, acreditamos que a IA deve ser útil para todos. Mas é difícil para a IA ser inclusiva quando tantos modelos de linguagem grandes (LLM) proeminentes entendem apenas uma pequena fração dos milhares de idiomas falados ao redor do mundo. Isso leva muitos modelos a ignorar involuntariamente as diferenças culturais e linguísticas que tornam cada sociedade única, limitando os imensos benefícios que os LLMs podem oferecer a potencialmente bilhões de pessoas.

Com o Gemma, nossa família de modelos abertos leves e eficientes, desenvolvedores e pesquisadores em todo o mundo agora têm as ferramentas para criar LLMs que abordam essas diferenças culturais específicas. Ao utilizar a mesma pesquisa e tecnologia usadas para criar o Gemini, o Gemma entende texto em todos os idiomas de forma eficaz, levando a um melhor desempenho multilíngue, custos reduzidos e mais flexibilidade para criar uma IA verdadeiramente inclusiva.

Equipes como as do INSAIT e da AI Singapore já estão capacitadas para criar novas possibilidades usando as variantes do Gemma. O recente lançamento do BgGPT pelo INSAIT, um modelo búlgaro de última geração baseado no gemma-2-27b, e o SEA-LIONv3 da AI Singapore, um novo modelo inovador para idiomas do sudeste asiático baseado no gemma-2-9b, mostram como, ao combinar seu conhecimento cultural e sua experiência em IA, ambas as equipes conseguiram criar novos LLMs que atendem às necessidades exclusivas de suas comunidades.

Inspirador, não? Você pode contribuir para ampliar os limites da inclusão e da inovação em IA participando da competição Unlock Global Communication with Gemma no Kaggle, aberta até 14 de janeiro.


SEA-LION: criação de LLMs para diversas comunidades da região SEA

Ao reconhecerem que os diversos idiomas e culturas do sudeste asiático (SEA) estavam sub-representados nos LLMs existentes, os desenvolvedores da AI Singapore criaram o SEA-LION para refletir melhor as nuances, os contextos e a diversidade cultural da região. Essa família de modelos já teve um impacto imenso nas comunidades locais da região SEA. Por exemplo, o modelo mais recente do SEA-LION baseado no Gemma tornou-se a base do Sahabat-AI, um LLM indonésio criado pela GoTo para habilitar o assistente de voz de IA em seus apps GoPay e Gojek. Com isso, milhões de indonésios podem usar esses serviços de app mais naturalmente em seus idiomas e dialetos locais.

O maior desafio da criação de um LLM líder para idiomas SEA era encontrar dados de treinamento diversificados e de alta qualidade. Foi por isso que a equipe colaborou com o Google DeepMind e o Google Research no Projeto SEALD, um esforço para aprimorar conjuntos de dados que pudessem ser usados para treinar, ajustar e avaliar modelos de linguagem grandes (LLMs) em idiomas falados em todo o sudeste asiático. A equipe também precisava garantir que os dados usados fossem relevantes, o que significava filtrar conteúdo de jogos de azar ou anúncios que não refletissem a verdadeira herança linguística e cultural da região. Para resolver isso, eles montaram um grupo de trabalho de falantes nativos e linguistas, para garantir que a tradução de cada modelo fosse precisa e soasse natural para usuários de diferentes origens.

A scatterplot graph plotting the relationship between SEA-LION’s English Tasks performance and SEA Average performance.
Comparativos de mercado que traçam o relacionamento entre o desempenho das tarefas em inglês do SEA-LION e o desempenho médio na região SEA.

A mais recente iteração V3 do SEA-LION é a mais avançada da equipe até agora. Pré-treinada continuamente no Gemma 2-9B, essa versão melhora significativamente a proficiência multilíngue e o desempenho das tarefas, o que faz dele seu modelo com o melhor desempenho até o momento. Essa versão também dá suporte a 11 idiomas do sudeste asiático, além de dialetos importantes, como javanês e sundanês, mantendo um sólido desempenho em inglês.

De acordo com William Tjhi, chefe de pesquisa aplicada para modelos de fundação da AI Singapore, a equipe escolheu o modelo de 9 bilhões de parâmetros em vez do modelo de base maior para garantir mais acessibilidade: "Muitos usuários da região SEA têm capacidade de processamento restrita e podem não ter os recursos computacionais necessários para executar inferências em escala com modelos maiores".


INSAIT: criação dos principais modelos de linguagem búlgaros no Gemma 2

Pesquisadores do Institute for Computer Science, Artificial Intelligence, and Technology (INSAIT, na sigla em inglês) também obtiveram ganhos incríveis em inclusão de linguagem de IA com a criação de três novos LLMs para o idioma búlgaro. Os modelos mais recentes do INSAIT são criados com base na família Gemma 2 e superam modelos búlgaros muito maiores, mantendo as habilidades do modelo Gemma 2 de base, como o inglês e a proficiência matemática.

Os novos LLMs do INSAIT ressaltam como o desenvolvimento da IA aberta tem o poder de promover a inovação em diversos contextos linguísticos. O sucesso da equipe destaca como os openLLMs colaborativos podem concorrer com os recursos de modelos proprietários maiores e, muitas vezes, superá-los.

A bar graph showing INSAIT’s latest models’ performance in Bulgarian (blue) versus previous models’ performance (grey).
Comparativos de mercado que mostram o desempenho dos mais recentes modelos do INSAIT em búlgaro (azul) versus o desempenho dos modelos anteriores (cinza).

Os modelos do idioma búlgaro de última geração do INSAIT demonstram uma abordagem escalonável para outros idiomas. Seus pesquisadores adicionaram muitas melhorias ao modelo Gemma 2 de base, incluindo pré-treinamento contínuo em cerca de 85 bilhões de tokens em búlgaro. Eles também incluíram novos pré-treinamentos contínuos, ajustes de instruções e um esquema de mesclagem de modelos com base em novas pesquisas da EMNLP 2024, uma conferência popular sobre processamento de linguagem natural. A pesquisa apresenta um novo método para mitigar o "esquecimento catastrófico", um fenômeno no qual os modelos de IA se esquecem de habilidades aprendidas anteriormente (inglês, matemática) depois de serem treinados em novas habilidades (búlgaro).

"O resultado apresentado pelo INSAIT é significativo porque demonstra visivelmente que mesmo um país do tamanho da Bulgária pode construir os seus próprios modelos de IA de última geração, baseando-se em modelos abertos, investigação avançada em IA e técnicas especiais de aquisição e formação de dados. ”, disse Martin Vechev, professor titular da ETH Zurique e diretor científico do INSAIT “Embora nossos modelos tenham como alvo o búlgaro, o método de ramificação e fusão que introduzimos no EMNLP 2024 para mitigar o esquecimento catastrófico se aplica à aquisição de novos. línguas.”

Chat preference in Bulgarian based on GPT4o-as-a-Judge

Hoje, os modelos abertos do INSAIT fornecem acesso gratuito a modelos de linguagem búlgaros de alto desempenho, avançando o processamento de linguagem natural na Bulgária e oferecendo mais oportunidades para outros interessados no desenvolvimento de soluções de IA localizadas. O INSAIT até lançou um sistema de chat público nacional baseado em suas variantes do modelo BgGPT-Gemma. Esta é a primeira vez que uma instituição governamental europeia lança um sistema de chat nacional baseado em seus próprios modelos de IA generativa publicamente disponíveis, gratuitos e abertos.


Conexão de comunidades por meio da IA

O lançamento desses modelos abertos da AI Singapore e do INSAIT representa um passo significativo para democratizar o acesso à IA e capacitar comunidades locais. Ambas as equipes destacam a importância da diversidade linguística no desenvolvimento de soluções de IA e mostraram que isso é facilmente possível por meio de soluções de modelos abertos, como o Gemma.

As possibilidades com LLMs localizados são vastas, e estamos orgulhosos de ver desenvolvedores ambiciosos usando as mais recentes tecnologias de IA para criar novas oportunidades para suas comunidades. É por isso que convidamos qualquer pessoa inspirada por essas histórias a participar de nossa competição do Kaggle, focada em adaptar a família de modelos abertos Gemma 2 a 73 idiomas elegíveis.

Com essa seleção diversificada de idiomas, estamos compilando uma base de recursos e práticas recomendadas para ajudar os desenvolvedores a criar LLMs melhores e mais inclusivos para comunidades em todo o mundo. Participe da competição ainda hoje; o prazo final para inscrição é 14 de janeiro de 2025!