Kaggle で開催された Gemma でグローバル コミュニケーションを実現するコンペティションでは、デベロッパーが最先端の大規模言語モデル(LLM)を多様な文化や言語に適応させるという AI の重要な課題に取り組み、コミュニティから数々のすばらしい貢献が寄せられました。
トレーニングや評価に主要言語のデータセットが使われる関係で、通常、モデルは高リソース言語に偏っています。これはパフォーマンスのギャップにつながる可能性があり、リソースの少ない言語では最新の AI の技術進展が実現できない可能性があります。また、言語の理解だけでなく、モデルをコミュニティに役立つものにするために必要な文化的背景が不足する可能性もあります。
コミュニティは言語、歌詞、古代文字などを翻訳するために、創造的なソリューションを生み出しました。私たちはその姿にとても感銘を受けています。
デベロッパーの皆さんは、数百件もの応募を通して、LLM の変革力をあらゆる言語に適用する方法を示しました。さまざまなプロジェクトで、カスタム データセットや効率的なポストトレーニング手法を用いて、Gemma を命令遂行、翻訳、特定領域に対応させる取り組みが行われました。Kaggle のノートブックを見ると、実際に使われた手法を確認できます。ぜひ皆さんの多言語プロジェクトに活用してみてください。
1 位となったプロジェクトは、Gemma をスワヒリ語に対応させることを通して、2 億人以上の話者にアプローチする新たな可能性を開きました。2B、9B、27B パラメータ サイズの Gemma モデルを、パラメータ効率の良いファインチューニング技術でチューニングしました。
このチューニングで重要なポイントとなったのは、Gemma が「驚くほど柔軟な形式で命令に応答できる」ことでした。そのため、最小限の構造的制約を設けるだけで命令を解析でき、入力形式が違っても一貫した応答を生成できます。
Knowledge Yielding Adaptive Retrieval Augmentation(Kyara)は、LLM ファインチューニング用の検索プロセスについて検討し、繁体字中国語で情報に基づいて応答を生成する Gemma の能力を高める方法を示しました。
このプロジェクトが主眼を置くのは、高品質な質問と回答(Q&A)データセットの作成です。人間が概念を結びつけながら学習することに注目し、グラフベースのアプローチで知識を検索することを通して、それを実現しています。
このプロジェクトでは、アラビア語の翻訳、要約、ストーリー生成、会話生成といった言語タスク向けに Gemma をファインチューニングしています。
アラビア語は豊かな歴史を持つ言語です。プロジェクトでは、文学や芸術で使われる古い形式のアラビア語の理解を深めるために、複数のテクニックを使って、現代標準アラビア語と古典アラビア語との間でタスクを橋渡しすることも行いました。
このプロジェクトが主眼を置いたのは、Gemma のイタリア語理解力の向上です。幻覚や壊滅的忘却などに対処するため、費用対効果の高いポストトレーニング アプローチを利用しています。
翻訳の品質を確保するため、LLM-as-a-judge を使って作成した新しいインストラクション チューニング データセットなど、さまざまなデータの組み合わせで 2B と 9B サイズのモデルをファインチューニングしました。
このプロジェクトでは、Gemma を使って古代中国語の文字を理解して翻訳する「古代中国語の専門家」を作り出しました。これは、LLM を歴史的文化の保存に活用するという可能性を示すものです。
包括的なデータセットでモデルをファインチューニングすることで言語理解力を向上させ、命令に従う能力を強化するテクニックを使ってポストトレーニングを行っています。
このプロジェクトは、AI による歌詞翻訳に特有な細かな課題に取り組んでいます。元の歌のリズムを崩さないようにしつつ、Gemma の文化的知識や象徴的言語に対する感性を高めています。
歌詞コンテンツの芸術的な深みを把握して再現できるように、注釈付きの歌詞翻訳の多言語データセットを使い、モデルが重要な文化的背景、感情のトーン、リズムの特徴を理解できるようにしています。
このプロジェクトでは、日本語テキストの読解支援に使われるよみがな(ふりがな)の生成用に Gemma 2 JPN をチューニングし、言語学習者や複雑な漢字に遭遇する読者を支援しています。
現在、他のルールベースのツールも存在していますが、LLM は珍しい漢字の認識に優れ、「文脈を解釈して多義漢字の曖昧さを正確に解消」できます。また、ノートブックでは、単一の変換タスク用にトレーニングしたことで、会話能力が低下したことも指摘しています。
このプロジェクトでは、ヒンディー語の数詞についての Gemma の数学的および論理的な理解を向上させています。ヒンディー語では、「दो सौ」は「200」、「ढाई」は「2.5」など、モデルが複雑な単語の構成を解釈できるようにすることが課題になっています。
厳選された幅広い種類の質問データセットを人間の専門家が検証し、それで 9B モデルをファインチューニングすることで、AI 主導型教育ツール、自動チュータリング、コンテンツのローカライズなどに利用できる可能性を開きます。
このプロジェクトでは、カザフ語翻訳タスク用に Gemma 2 9B モデルをファインチューニングしています。カザフ語は、3 つの異なる文字体系(キリル文字、ラテン文字、アラビア文字)で書かれる言語です。キリル文字バージョンは、英語の約 2 倍のトークンを必要とするため、リソースが限られた環境でトレーニングすることが難しくなっています。
このモデルのベンチマークは、27B Gemma バリアントや Google 翻訳よりも優れており、少数言語に LLM を適応させる費用対効果の高いアプローチであることが示されています。
このプロジェクトでは、Gemma が英語の最古の記録形式である古英語を理解して翻訳できるようにしています。歴史言語を扱うと、公開されているデータが少ないという課題に直面することになります。それに対処するため、古英語と現代英語の言語ペアからなるカスタム データセットを作成しました。
ノートブックには、おまけとして、オープンソースのアイスランド語のテキスト読み上げモデルを使ったオーディオ生成コンポーネントが付属しており、当時に近い音声を聴くことができます。
世界では 7,000 以上の言語が話されており、AI がコミュニケーションのギャップを埋める可能性は計り知れません。Gemma オープンモデル ファミリーは、デベロッパーが高性能モデルを低リソース言語に適応させるための強力な基盤となります。
Kaggle コミュニティは、Gemma 2 をさまざまな言語に適応させることでイノベーションと献身を示しました。これは本当に刺激的なことです。私たちは、AI によって誰でもグローバル コミュニケーションができるようになる未来を築いています。Gemma 3 は事前トレーニングによって 140 を超える言語をサポートするため、その実現に向けた最適な基盤となります。
デベロッパーの皆さん、ぜひ Gemma の可能性を探り、データセットやモデルを他の人と共有して、一緒に多言語 AI を進展させていきましょう。