超越英语:Gemma 开放模型如何弥合语言差距

十二月 20, 2024
Francesca Di Felice Developer Brand & Reputation Marketing

在 Google,我们相信 AI 应对每个人都有所帮助。但是,当这么多著名的大型语言模型 (LLM) 只能理解全球数千种语言中的一小部分时,AI 将很难具有包容性。这导致许多模型无意中忽略了使得每个社会都独一无二的文化和语言差异,从而限制了大语言模型可能为数十亿人所带来的巨大益处。

借助 Gemma 这一轻量且和高效的开放模型系列,全球的开发人员和研究人员现在拥有了构建 LLM 的工具,可以解决这些特定的文化差异。开发 Gemma 是采用了与创建 Gemini 相同的研究和技术,因此 Gemma 可有效地理解跨语言文本,从而提高多语言性能,降低成本并为构建真正具有包容性的 AI 提供了更大的灵活性。

INSAITAI Singapore 这样的团队,已经通过使用 Gemma 模型的变体,创造了新的可能性。INSAIT 最近发布的 BgGPT 是基于 gemma-2-27b 的十分先进的保加利亚语模型;而 AI Singapore 则推出了 SEA-LIONv3,这是基于 gemma-2-9b 且适用于东南亚语言的开创性新模型。这两个团队展示了如何通过融合他们的文化知识和 AI 专业知识,创建全新的 LLM,以满足其社区的独特需求。

是否有所启发?您可以通过参加 Kaggle 上的 借助 Gemma 解锁全球沟通竞赛(开放至 1 月 14 日),为推动 AI 的包容性和创新做出贡献。


SEA-LION :为多元化的东南亚社区打造 LLM

认识到东南亚 (SEA) 多元化的语言和文化在现有 LLM 中代表性不足,AI Singapore 开发人员创建了 SEA-LION,以更好地反映该地区的细微差别、背景和文化多样性。这一系列模型已经对当地东南亚社区产生了巨大影响。例如,基于 Gemma 的最新 SEA-LION 模型已成为 Sahabat-AI 的基础,Sahabat-AI 是由 GoTo 构建的适用于印度尼西亚语的 LLM,用于在由 GoTo 开发 GoPay 应用程序和 Gojek 应用程序上为 AI 语音助手提供支持,这使数百万印度尼西亚人能够更自然地以当地语言和方言使用这些应用程序服务。

构建适用于东南亚语言的领先 LLM 所面临的最大挑战是找到高质量且多元化的训练数据。为此,AI Singapore 团队与 Google DeepMind & Google Research 合作,开展了 SEALD 项目,旨在增强用于训练、微调和评估东南亚语言大语言模型的数据集。该团队还必须确保他们使用的数据是相关的,这意味着需要过滤掉不符合该地区真实语言和文化遗产的内容,例如赌博信息或广告。为了解决这个问题,他们建立了一个由母语人士和语言学家组成的工作组,以确保每个模型的翻译准确无误,并让不同背景的用户感到自然流畅。

A scatterplot graph plotting the relationship between SEA-LION’s English Tasks performance and SEA Average performance.
绘制 SEA-LION 的英语任务表现与东南亚语言平均表现之间关系的基准。

SEA-LION 最新的 V3 版本是该团队目前所开发的最先进版本。该版本在 Gemma 2-9B 上执行了持续的预训练,大大提高了多语言熟练程度和任务表现,使其成为该团队目前表现最好的模型。该版本还支持 11 种东南亚语言,以及爪哇语和巽他语等主要方言,同时在英语方面也保持着强劲的表现。

根据 AI Singapore 基础模型应用研究负责人 William Tjhi 的说法,该团队选择了 90 亿个参数模型,而不是更大的基本模型,以确保更广泛的可访问性:“许多东南亚用户‘吞吐量受限’,可能没有足够的计算资源来大规模运行更大模型的推理。”


INSAIT:在 Gemma 2 上构建领先的适用于保加利亚语的模型

计算机科学、人工智能和技术研究所 (INSAIT) 的研究人员也通过为保加利亚语创建三个新的 LLM,在 AI 语言包容性方面取得了令人难以置信的成就。INSAIT 的最新模型建立在 Gemma 2 系列之上,性能优于更大的适用于保加利亚语的模型,同时重要的是仍保持了 Gemma 2 模型的核心能力,如英语和数学能力。

INSAIT 的全新 LLM 强调了开放式 AI 发展如何在多元语言环境中推动创新的力量。该团队的成功凸显了协作式、开放式 LLM 可以与大型专有模型相媲美,甚至能够超越后者。

A bar graph showing INSAIT’s latest models’ performance in Bulgarian (blue) versus previous models’ performance (grey).
展示 INSAIT 最新模型在保加利亚语方面的表现(蓝色)与之前模型表现(灰色)对比情况的基准。

INSAIT 最先进的保加利亚语模型展现了可用于其他语言的可扩展方法。其研究人员为基础 Gemma 2 模型添加了许多改进,包括对保加利亚语约 850 亿代币的持续预训练。这些训练还包括新颖的连续预训练,指令微调,以及基于 EMNLP 2024(自然语言处理领域的知名会议)全新研究的模型合并方案。这项研究引入了一种用于缓解“灾难性遗忘”的新方法,这种现象是指 AI 模型在接受新技能(保加利亚语)训练后会忘记之前学过的技能(英语、数学)。

“INSAIT 所展示的结果意义重大,因为它清楚地表明,即使是像保加利亚这样大的国家也可以依靠开放模型、先进的人工智能研究以及特殊的数据采集和训练技术来构建自己最先进的人工智能模型苏黎世联邦理工学院正教授兼 INSAIT 科学主任 Martin Vechev 表示:“虽然我们的模型针对的是保加利亚语,但我们在 EMNLP 2024 中引入的用于减轻灾难性遗忘的分支合并方法也适用于。学习新语言。”

Chat preference in Bulgarian based on GPT4o-as-a-Judge

如今,INSAIT 的开放模型针对保加利亚语提供了对高性能的免费访问,推进了保加利亚境内的自然语言处理领域发展,并为有兴趣开发本地化 AI 解决方案的其他人员提供了更多机会。INSAIT 甚至推出了基于其 BgGPT-Gemma 模型变体的全国公共聊天系统。这是欧洲的政府机构首次推出基于其自身公开、免费和开放的生成式 AI 模型的全国聊天系统。


通过 AI 连接社区

AI Singapore 和 INSAIT 发布的这些开放式模型是实现 AI 访问民主化和赋能当地社区的重要一步。这两个团队都强调了语言多元化在开发 AI 解决方案方面的重要性,并表明可通过 Gemma 等开放式模型解决方案轻松实现。

本地化 LLM 所带来的可能性是巨大的,我们自豪地看到雄心勃勃的开发人员正在使用最新的 AI 技术为他们的社区创造新的机会。正因如此,我们邀请任何受这些故事启发的人参与我们的 Kaggle 竞赛,聚焦于将 Gemma 2 开放式模型系列适配到 73 种符合条件的语言。

通过这一多元化的语言选择,我们正在汇编基础资源和最佳实践,以帮助开发人员为世界各地的社区创建更好、更具包容性的 LLM。立即参加比赛;最终报名截止日期为 2025 年 1 月 14 日!