Inovação multilíngue em LLMs: como os modelos abertos ajudam a desbloquear a comunicação global

23 DE JUNHO DE 2025
Glenn Cameron Product Marketing Manager AI Developer

É com prazer que comemoramos as incríveis contribuições da comunidade para a competição Unlock Global Communication with Gemma no Kaggle! Os desenvolvedores enfrentaram o desafio crítico da IA de adaptar modelos de linguagem grandes (LLMs, na sigla em inglês) de última geração a diversos contextos culturais e linguísticos.

Os modelos geralmente demonstram um viés em relação a idiomas com muitos recursos devido ao idioma predominante de seus conjuntos de dados de treinamento e avaliação. Isso pode levar a uma lacuna de desempenho, na qual os avanços mais recentes da IA podem não ser aplicados a idiomas com menos recursos. E, além de não terem a compreensão do idioma, esses modelos podem não ter um contexto culturalmente relevante para serem úteis para as comunidades.

Ficamos muito impressionados com as soluções criativas da comunidade para tradução de idiomas, letras de músicas, textos antigos e muito mais.


Nossas homenagens aos inovadores

Por meio de centenas de envios, os desenvolvedores demonstraram como levar o poder transformador dos LLMs para idiomas do mundo todo. Os projetos utilizaram conjuntos de dados personalizados e métodos eficientes de pós-treinamento para adaptar o Gemma para acompanhamento de instruções, tradução e domínios específicos. Incentivamos você a explorar os notebooks do Kaggle para ver essas técnicas em ação e aplicá-las a seus próprios projetos multilíngues.


Gemma 2 Swahili

Esse projeto adaptou o Gemma para a compreensão do suaíli, abrindo novas possibilidades para alcançar mais de 200 milhões de falantes do idioma. Os modelos Gemma foram ajustados usando técnicas eficientes em parâmetros para os tamanhos 2B, 9B e 27B.

Um aspecto fundamental desse ajuste foi a "notável flexibilidade do Gemma na formatação de instrução-resposta", que permitiu que os modelos analisassem instruções com restrições estruturais mínimas e gerassem respostas coerentes em diferentes formatos de entrada.


Kyara: Retrieval Augmentation for LLM Fine-Tuning

O Knowledge Yielding Adaptive Retrieval Augmentation (Kyara) explorou processos de recuperação para ajuste de LLMs, demonstrando como melhorar a capacidade do Gemma de gerar respostas informadas em chinês tradicional.

O projeto se concentrou na criação de conjuntos de dados de perguntas e respostas de alta qualidade usando uma abordagem baseada em gráficos para a recuperação de conhecimento, inspirada na forma como os humanos aprendem por meio da conexão de conceitos.


ArGemma: Fine-Tuning Gemma for Arabic

O projeto ajustou o Gemma para tarefas do idioma árabe, incluindo tradução, resumo, narrativa de histórias e geração de diálogos.

Por lidar com um idioma com um rico passado histórico, o projeto também teve como objetivo melhorar a compreensão de formas mais antigas do árabe usadas em textos literários e na arte, empregando várias técnicas para fazer a ponte entre o árabe moderno padrão e o clássico.


Post-Training Gemma for Italian and beyond

Esse projeto se concentrou na melhoria da compreensão do idioma italiano para o Gemma usando uma abordagem econômica de pós-treinamento que lida com armadilhas como alucinações e esquecimento catastrófico.

Os tamanhos de modelo 2B e 9B foram ajustados com uma combinação de dados, incluindo um novo conjunto de dados de ajuste de instruções criado usando o LLM como juiz para garantir a qualidade das traduções.


Ancient Chinese Expert: Gemma 2>ChatGPT

Esse projeto desenvolveu um "especialista em chinês antigo" usando o Gemma para entender e gerar traduções de textos chineses antigos, destacando o potencial dos LLMs para a preservação cultural histórica.

O modelo foi ajustado com um conjunto de dados abrangente para melhorar a compreensão linguística, e o pós-treinamento incluiu técnicas para melhorar a instrução seguinte.


Lyric-Gemma 2: One Song, Different Stories

Esse projeto abordou as nuances desafiadoras específicas da tradução de letras de música orientada por IA, aumentando a sensibilidade do Gemma a referências culturais e à linguagem simbólica, além de garantir a fidelidade rítmica em relação à canção original.

Um conjunto de dados multilíngue continha traduções de letras de música anotadas para capturar o contexto cultural essencial, o tom emocional e as características rítmicas, permitindo que o modelo compreendesse e replicasse a profundidade artística do conteúdo.


Fine-tuning Gemma 2 JPN for Yomigana

Esse projeto adaptou o Gemma 2 JPN para gerar Yomigana/Furigana, um recurso para leitura de texto em japonês e para ajudar alunos de idiomas ou leitores que se deparam com Kanji complexo.

Embora existam atualmente outras ferramentas baseadas em regras, os LLMs podem reconhecer melhor o Kanji raro e "interpretar o contexto de uma frase, permitindo uma desambiguação precisa do Kanji polifônico". O notebook também observou que as capacidades de conversação tinham se degradado devido ao treinamento na tarefa de tradução singular.


Mathematical Minds: Fine-tuning Gemma 2 for Hindi

Esse projeto melhora a compreensão matemática e lógica do Gemma em palavras numéricas em hindi, o que representa um desafio para que os modelos interpretem certas formações de palavras complexas, por exemplo, "दो सौ" para "200" ou "ढाई" para "2,5".

O modelo 9B foi ajustado com um conjunto de dados com curadoria e verificação por especialistas humanos com uma ampla variedade de tipos de perguntas, desbloqueando usos para ferramentas educacionais orientadas por IA, tutoria automatizada e conteúdo localizado.


Gemma-2-9b-kk-it: Learning to translate Kazakh

Esse projeto ajustou o modelo Gemma 2 9B para tarefas de tradução em cazaque. Esse idioma é escrito em três scripts distintos (cirílico, latim e árabe), e a versão cirílica requer aproximadamente o dobro de tokens do inglês, o que representa um desafio para o treinamento com recursos limitados.

O desempenho do modelo teve comparativos de mercado melhores do que a variante 27B do Gemma e o Google Tradutor, demonstrando como adaptar LLMs para idiomas sub-representados usando uma abordagem econômica.


THEODEN: The Old English Gemma

Esse projeto permite que o Gemma entenda e traduza o inglês arcaico, a forma mais antiga do idioma inglês registrada. Um conjunto de dados personalizado com pares de idiomas inglês arcaico-inglês moderno foi criado para ajudar a enfrentar o desafio de trabalhar com idiomas históricos e com a limitação de dados publicamente disponíveis.

O notebook também apresenta um componente de geração de áudio de bônus, baseado em um modelo islandês de conversão de texto em voz de código aberto, oferecendo uma aproximação de como a fala pode ter soado.


Mais 10 projetos incríveis

  • Gemma PT: esse projeto ajustou o classificador de conteúdo ShieldGemma para detectar preconceito e desinformação em português.

  • Finetune Gemma Turkish Chat: esse projeto ajustou o Gemma com um conjunto de dados de perguntas e respostas para melhorar a acurácia e a capacidade de conversação.


De olho no futuro com o Gemma 3

Com mais de sete mil idiomas falados em todo o mundo, o potencial da IA para preencher as lacunas da comunicação é imenso. A família Gemma de modelos abertos fornece uma base poderosa para que os desenvolvedores adaptem modelos de alto desempenho a idiomas com poucos recursos.

A inovação e a dedicação demonstradas pela comunidade do Kaggle na adaptação do Gemma 2 para vários idiomas são verdadeiramente inspiradoras. À medida que continuamos a construir um futuro no qual a IA capacita a comunicação global para todos, estamos entusiasmados com o Gemma 3, que traz suporte pré-treinado a mais de 140 idiomas, o que faz dele uma ótima base.

Incentivamos os desenvolvedores a explorar as possibilidades do Gemma, compartilhar conjuntos de dados e modelos com outras pessoas e continuar avançando juntos na IA multilíngue.