Rumo à compreensão global – aprimoramento da IA multilíngue com o Gemma 2 e um desafio de US$ 150 mil

OUT 03, 2024
Glenn Cameron Product Marketing Manager AI Developer
Robert Dadashi Research Scientist Google DeepMind

No Google, acreditamos que a IA pode preencher as lacunas de comunicação em nosso mundo tão diversificado. Com mais de 7.000 idiomas e inúmeras nuances culturais, o potencial para promover a compreensão global por meio da IA é imenso. É com grande prazer que compartilhamos nossos passos em direção a essa meta, com foco em ajudar a capacitar as comunidades a criarem uma IA que reflita a riqueza dos idiomas humanos.

Uma das maneiras pelas quais estamos fazendo isso é por meio do Gemma, nossa família de modelos abertos leves e de última geração, criados a partir da mesma pesquisa e tecnologia usadas para criar os modelos Gemini. Desde seu lançamento, há menos de oito meses, uma comunidade vibrante — que chamamos de Gemmaverso — surgiu em torno do Gemma, criando um incrível ecossistema de ferramentas e dezenas de milhares de variantes de modelos ajustadas.


Apresentamos um modelo multilíngue avançado e acessível

Para aproveitar este momento, revelamos hoje, no Gemma Developer Day, em Tóquio, uma nova variante do Gemma 2 com 2 bilhões de parâmetros ajustada para o japonês. Estamos lançando esse modelo, juntamente com os materiais de treinamento, como exemplos práticos e recursos de aprendizagem para desenvolvedores em todo o mundo. Nossa meta é capacitar as comunidades a adaptarem o Gemma a seus próprios idiomas, usando a profunda compreensão que elas têm de seus idiomas e suas culturas.

As avaliações iniciais mostram que o modelo executa tarefas em japonês comparáveis às do GPT 3.5, que foi considerado um modelo pioneiro há não muito tempo, mas permanecendo leve o suficiente para uma execução eficiente em dispositivos móveis. O modelo alcança essa proficiência aprimorada no japonês sem sacrificar suas robustas capacidades no idioma inglês, destacando o potencial para criar modelos multilíngues verdadeiramente equilibrados e capazes de preencher as lacunas da comunicação e atender a comunidades diversificadas em todo o mundo.

Gemma 2 2B JPN rodando offline em um telefone Android via MediaPipe LLM Inference API

A partir de hoje, você pode fazer o download dos pesos de modelo do Gemma 2 no Kaggle ou no Hugging Face.


Criação de uma comunidade próspera

Além de nossos próprios esforços, o Gemmaverso está se expandindo rapidamente, com desenvolvedores alcançando resultados notáveis na adaptação do modelo a uma ampla gama de idiomas e enfrentando desafios regionais específicos. Fomos particularmente inspirados por projetos como o Navarasa, no qual os desenvolvedores indianos ajustaram o Gemma para 12 idiomas índicos, demonstrando a capacidade da comunidade de adaptar o modelo a necessidades linguísticas globais.

Link to Youtube Video (visible only when JS is disabled)

Também estamos testemunhando esforços inspiradores para dar suporte a mais idiomas em todo o mundo. Os desenvolvedores já publicaram modelos Gemma ajustados para idiomas como árabe, vietnamita, zulu e muitos outros, demonstrando o potencial dessa tecnologia para preencher lacunas de comunicação e capacitar comunidades globais. É particularmente inspirador ver a comunidade enfrentando desafios exclusivos de regiões específicas, como a preservação de dialetos ameaçados de extinção, como demonstrado por um desenvolvedor na Coreia, que criou um tradutor para o dialeto da Ilha de Jeju.


Desbloqueio da comunicação global por meio da colaboração

Essas iniciativas voltadas para a comunidade destacam a importância de capacitar especialistas locais para criar uma IA verdadeiramente global. Para apoiar ainda mais esse esforço colaborativo, estamos lançando a competição Unlocking Global Communication with Gemma, com US$ 150.000 em prêmios no Kaggle. Essa competição convida desenvolvedores do mundo todo a ajustar o Gemma 2 para seus idiomas e compartilhar seus conhecimentos por meio de notebooks reproduzíveis, explorando aplicações como fluência linguística, tradições literárias, textos históricos e muito mais.


Junte-se ao movimento

Junte-se a nós no Kaggle, compartilhe seus conhecimentos e ajude-nos a construir um futuro no qual a IA transcenda as barreiras linguísticas e capacite a todos, independentemente da localização. Juntos, vamos desbloquear todo o potencial idiomático da IA e criar um mundo mais conectado e compreensivo.