在 Google,我们相信 AI 可以弥合我们多元化世界中的沟通差距。世界上有超过 7,000 种语言和无数的文化细微差别,通过 AI 促进全球理解的潜力是巨大的。我们很高兴分享实现这一目标的过程,我们的重点是帮助社区构建反映人类语言丰富性的 AI。
我们正在采取的其中一种方式是借助 Gemma,这是我们的轻量级先进开源模型系列,采用与创建 Gemini 模型时所用的相同研究成果和技术构建而成。自 Gemma 推出以来不到八个月,一个充满活力的社区(我们称之为 Gemmaverse)围绕 Gemma 迅速发展起来,创造出了令人难以置信的工具生态系统和数以万计的微调模型变体。
今天,在这种势头的基础上,我们在东京 Gemma 开发者日活动上推出了一个全新的、针对日语微调的 20 亿参数 Gemma 2 变体。我们将发布此模型及其培训材料,作为面向全球开发者的实用示例和学习资源。我们的目标是让社区能够利用他们对语言和文化的深刻理解,让 Gemma 适应各社区自己的语言。
初步评估显示,该模型执行的日语任务与不久前被认为是前沿模型的 GPT 3.5 相当,同时保持足够轻量化,可以在移动设备上高效运行。在不牺牲强大的英语能力的情况下,该模型实现了这种强化的日语熟练程度,突出展现了创建真正平衡的多语言模型的潜力,这种模型可以弥合沟通差距,服务于全球多元化社区。
从今天开始,你可以从 Kaggle 或 Hugging Face 上下载 Gemma 2 的模型权重。
除了我们自己的努力之外,Gemmaverse 正在迅速扩展,开发者在适应各种语言和应对区域特定挑战方面取得了显著成果。我们特别受到 Navarasa 等项目的启发,在该项目中,印度开发人员对 Gemma 进行了 12 种印度语言的微调,展示了社区根据全球语言需求调整模型的能力。
Link to Youtube Video (visible only when JS is disabled)
我们还见证了为全球更多语言提供支持的鼓舞人心的努力。开发人员已经发布了针对阿拉伯语、越南语、祖鲁语等语言的微调 Gemma 模型,展示了这项技术在弥合沟通差距和增强全球社区能力方面的潜力。看到社区应对特定地区独有的挑战(例如保护濒危方言)尤其鼓舞人心,韩国的一名开发者制作济州岛方言翻译器就是一个优秀的案例。
这些社区驱动的举措凸显了授权本地专家构建真正的全球 AI 的重要性。为了进一步支持这一合作努力,我们将在 Kaggle 上启动借助 Gemma 解锁全球沟通竞赛,奖金为 15 万美元。本次比赛邀请世界各地的开发者针对他们的语言对 Gemma 2 进行微调,并通过可重现的笔记本分享他们的知识,探索语言流畅性、文学传统、历史文本等方面的应用。
前往 Kaggle 和我们携手共进,分享你的知识,帮助我们构建一个 AI 可以超越语言障碍、让所有人无论身在何处都能受益的未来。让我们一起释放语言 AI 的全部潜力,创造一个更加互联、更加善解人意的世界。