我们在 Kaggle 上举办了“借助 Gemma 解锁全球沟通”竞赛,我们很高兴表彰社区为这场竞赛做出的巨大贡献!各路开发者成功应对了 AI 方面的关键挑战,即如何根据不同的文化和语言背景来调整先进的大型语言模型 (LLM)。
由于受到训练和评估数据集的主要语言的影响,模型通常表现出对高资源语言的偏好。这可能会造成性能差距,导致最新的 AI 发展成果无法在较低资源语言中实现。此外,这些模型可能缺乏对于这类语言及其相关文化语境的理解,导致这些模型很难为这些语言社区带来帮助。
社区为语言、歌词、古文等内容的翻译提供了各种创意解决方案,让我们留下了深刻印象。
各路开发者提交了数百份竞赛作品,展示了如何将 LLM 的变革性力量带给世界各地的语言。这些项目利用了自定义数据集和高效后训练方法,使 Gemma 得以适应指令跟踪、翻译和特定领域。我们鼓励您探索 Kaggle 上的笔记,了解这些技术的实际应用效果,并将其应用于您自己的多语言项目。
第一个项目对 Gemma 进行了调整,旨在使其理解斯瓦希里语。这为 2 亿多使用该语言的人带去了全新的可能性。该项目使用参数高效微调技术对 2B、9B 和 27B 参数大小的 Gemma 模型进行了微调。
他们微调的一个关键方面是 Gemma“在指令-响应格式方面展现的出众灵活性”,这使得模型能够在最小结构约束下解析指令,并在不同输入格式中生成连贯的回复。
Knowledge Yielding Adaptive Retrieval Augmentation (Kyara) 探索了 LLM 微调的检索过程,演示了如何增强 Gemma 生成明智的繁体中文回复的能力。
该项目侧重于使用基于图表的知识检索方法来构建优质问答 (Q&A) 数据集,其灵感源自于人类通过连接概念进行学习的方式。
该项目针对阿拉伯语任务对 Gemma 进行了微调,这些任务包括翻译、总结、故事叙述和对话生成。
鉴于阿拉伯语是一种历史悠久的语言,该项目还旨在提升对文学文本和艺术作品中使用的古阿拉伯语形式的理解,通过采用多种技术来同时适应现代标准阿拉伯语和古典阿拉伯语任务。
该项目侧重于使用具有成本效益的后训练方法来提高 Gemma 对意大利语的理解能力,以解决“幻觉”和“灾难性遗忘”等难题。
该项目根据混合数据对 2B 和 9B 大小的模型进行了微调。混合数据中包括使用 LLM-as-a-judge 创建的全新指令微调数据集,使用该数据集是为了确保翻译质量。
该项目使用 Gemma 开发了一款“中国文言文专业处理程序”,旨在理解中国文言文并生成翻译,突出了 LLM 在历史文化保护方面的潜力。
该项目根据综合数据集对 Gemma 进行了微调,以提高其对于文言文的理解能力,后训练过程中还使用了改善指令跟踪的技术。
该项目解决了 AI 歌词翻译所面临的特有微妙挑战,增强了 Gemma 对文化参照和符号语言的敏感性,同时也可确保遵从歌曲原本的节奏。
多语言数据集包含带有注释的歌词翻译,这些注释记录了关键的文化背景、情感语气和节奏特征,使模型能够掌握和复现歌词内容的艺术深度。
该项目调整了 Gemma 2 JPN 以生成日语汉字假名,这些假名可为日语文本阅读提供辅助,帮助语言学习者或读者阅读遇到的复杂日语汉字。
虽然目前存在其他基于规则的工具,但 LLM 可以更好地识别罕见的日语汉字,并“解释句子的上下文,从而准确消除多音日语汉字的歧义”。项目笔记还指出,由于模型针对单一翻译任务不断训练,其会话能力已经有所下降。
该项目增强了 Gemma 对于印地语数词的数学意义和逻辑意义的理解दो दो。दो 以往,模型在解析印地语数词的复杂单词形式时会遇到挑战,例如表示“200”的“दो”或表示“2.5”的“”。सौसौसौसौ
该项目使用经过精心设计和人类专家验证的数据集(包含多种问题类型)对 9B 模型进行了微调,解锁了 AI 驱动的教育工具、自动化辅导和本地化内容的各种用途。
该项目针对哈萨克语翻译任务对 Gemma 2 9B 模型进行了微调。哈萨克语采用三种不同的文字(西里尔语、拉丁语和阿拉伯语),其中西里尔语版本需要的 Token 数量大约是英语的两倍,这给资源有限的训练带来了挑战。
该模型的性能基准数据优于 27B Gemma 变体和 Google 翻译,展现了如何使用具有成本效益的方法针对代表性不足的语言调整 LLM。
根据历史记载,古英语是最早的英语语言形式,而该项目赋予了 Gemma 理解和翻译古英语的能力。该项目创建了一个基于“古英语-现代英语”语言对的自定义数据集,旨在帮助应对使用历史语言和公开数据有限的难题。
该笔记还包含一个基于开源冰岛语文本转语音模型的额外音频生成组件,可提供近似的语音效果。
、全球各地使用着 7,000 多种语言,AI 解决沟通障碍的潜力无疑是巨大的。开放的 Gemma 系列模型为开发者提供了强大的基础,让他们能够针对低资源语言调整高性能模型。
Kaggle 社区针对多种语言对 Gemma 2 进行了调整,他们展现出来的创新和奉献精神着实鼓舞人心。在我们继续构建未来以使 AI 助力全球沟通的过程中,我们对 Gemma 3 充满期待,它经过预先训练,可为 140 多种语言提供支持,这为后续构建打下了绝佳基础。
我们鼓励开发者探索 Gemma 的各种可能性,并与其他人分享自己的数据集和模型,继续共同推进多语言 AI 的发展。