Beyond English: Bagaimana model terbuka Gemma menjembatani kesenjangan bahasa

DES 20, 2024
Francesca Di Felice Developer Brand & Reputation Marketing

Di Google, kami percaya bahwa AI harus bermanfaat bagi semua orang. Namun, sulit bagi AI untuk menjadi inklusif ketika begitu banyak model bahasa besar (LLM) terkemuka hanya memahami sebagian kecil dari ribuan bahasa yang digunakan di seluruh dunia. Ini menyebabkan banyak model secara tidak sengaja mengabaikan perbedaan budaya dan bahasa yang membuat setiap masyarakat unik, membatasi manfaat luar biasa yang dapat ditawarkan LLM kepada miliaran orang.

Dengan Gemma, rangkaian model terbuka kami yang ringan dan efisien, developer dan peneliti di seluruh dunia kini memiliki alat untuk membangun LLM yang dapat mengatasi perbedaan budaya yang spesifik ini. Memanfaatkan penelitian dan teknologi yang sama dengan yang digunakan untuk membuat Gemini, Gemma secara efisien memahami teks lintas bahasa, yang mengarah pada peningkatan performa multibahasa, pengurangan biaya, dan fleksibilitas yang lebih besar untuk menciptakan AI yang benar-benar inklusif.

Tim-tim, seperti INSAIT dan AI Singapore telah diberdayakan untuk menciptakan berbagai kemungkinan baru menggunakan varian Gemma. Rilis terbaru BgGPT dari INSAIT, model bahasa Bulgaria tercanggih yang berbasis gemma-2-27b dan SEA-LIONv3 dari AI Singapore, model baru yang inovatif untuk bahasa di Asia Tenggara yang berbasis gemma-2-9b, menunjukkan bahwa dengan menggabungkan pengetahuan budaya dan keahlian AI, kedua tim berhasil menciptakan LLM baru yang memenuhi kebutuhan unik komunitasnya.

Terinspirasi? Anda bisa berkontribusi mendorong batas-batas inklusivitas dan inovasi AI dengan bergabung dalam kompetisi Membuka Komunikasi Global dengan Gemma di Kaggle, yang dibuka hingga 14 Januari.


SEA-LION: Membangun LLM untuk komunitas di Asia Tenggara yang beragam

Menyadari bahwa bahasa dan budaya Asia Tenggara (SEA) yang beragam kurang terwakili dalam LLM yang ada, developer AI Singapore menciptakan SEA-LION untuk merefleksikan nuansa, konteks, dan keanekaragaman budaya di kawasan ini dengan lebih baik. Rangkaian model ini telah memberikan dampak yang sangat besar bagi komunitas lokal di Asia Tenggara. Sebagai contoh, model SEA-LION terbaru yang berbasis Gemma telah menjadi fondasi untuk Sahabat-AI, LLM Indonesia yang dibangun oleh GoTo untuk mendukung asisten suara AI di aplikasi GoPay dan Gojek. Ini memungkinkan jutaan orang Indonesia menggunakan layanan aplikasi ini secara lebih natural dalam bahasa dan dialek lokal mereka.

Tantangan terbesar dalam membangun LLM terdepan untuk bahasa-bahasa di Asia Tenggara adalah menemukan data pelatihan yang beragam dan berkualitas tinggi. Inilah sebabnya tim berkolaborasi dengan Google DeepMind & Tim Riset Google pada Project SEALD, sebuah upaya untuk meningkatkan set data yang bisa digunakan untuk melatih, menyempurnakan, dan mengevaluasi model bahasa besar (LLM) dalam bahasa yang digunakan di Asia Tenggara. Tim juga harus memastikan data yang digunakan relevan, yang berarti memfilter konten perjudian atau iklan yang tidak mencerminkan warisan bahasa dan budaya sesungguhnya di wilayah tersebut. Untuk mengatasi hal ini, mereka membentuk kelompok kerja yang terdiri dari penutur asli dan ahli bahasa untuk memastikan terjemahan setiap model akurat dan terasa natural bagi pengguna dengan beragam latar belakang.

A scatterplot graph plotting the relationship between SEA-LION’s English Tasks performance and SEA Average performance.
Tolok ukur yang menunjukkan hubungan antara performa Tugas Bahasa Inggris SEA-LION dan performa Rata-rata pengguna di Asia Tenggara.

Iterasi SEA-LION V3 terbaru adalah yang tercanggih dari tim ini. Setelah sebelumnya dilatih secara berkelanjutan pada Gemma 2-9B, versi ini secara signifikan meningkatkan kemahiran multibahasa dan performa tugas, menjadikannya model dengan performa terbaik hingga saat ini. Versi ini juga mendukung 11 bahasa Asia Tenggara, serta dialek utama, seperti bahasa Jawa dan Sunda, dengan tetap mempertahankan performa yang kuat dalam bahasa Inggris.

Menurut William Tjhi, kepala penelitian terapan untuk model dasar di AI Singapore, tim memilih model 9 miliar parameter daripada model dasar yang lebih besar untuk memastikan aksesibilitas yang lebih baik: “Banyak pengguna di Asia Tenggara memiliki ‘keterbatasan throughput’ dan mungkin tidak memiliki sumber daya komputasi yang memadai untuk menjalankan inferensi berskala besar dengan model yang lebih besar.”


INSAIT: Membangun model bahasa Bulgaria terdepan di Gemma 2

Para peneliti di Institute for Computer Science, Artificial Intelligence, and Technology (INSAIT) juga membuat kemajuan yang luar biasa dalam inklusivitas bahasa AI dengan menciptakan tiga LLM baru untuk bahasa Bulgaria. Model terbaru INSAIT dibangun di atas keluarga Gemma 2 dan mengungguli model bahasa Bulgaria yang jauh lebih besar, sekaligus tetap mempertahankan kemampuan model dasar Gemma 2, seperti kemahiran bahasa Inggris dan matematika.

LLM baru INSAIT menggarisbawahi kekuatan pengembangan AI terbuka yang bisa mendorong inovasi dalam berbagai konteks linguistik. Keberhasilan tim ini menyoroti bagaimana LLM yang kolaboratif dan terbuka dapat menyaingi—dan sering kali melebihi—kemampuan model khusus yang lebih besar.

A bar graph showing INSAIT’s latest models’ performance in Bulgarian (blue) versus previous models’ performance (grey).
Tolok ukur yang menunjukkan performa model terbaru INSAIT dalam bahasa Bulgaria (biru) dibandingkan dengan performa model sebelumnya (abu-abu).

Model bahasa Bulgaria tercanggih dari INSAIT menunjukkan pendekatan yang skalabel untuk bahasa lain. Para penelitinya menambahkan banyak peningkatan pada model dasar Gemma 2, termasuk pra-pelatihan berkelanjutan pada sekitar 85 miliar token dalam bahasa Bulgaria. Mereka juga menyertakan pra-pelatihan berkelanjutan terbaru, penyempurnaan instruksi, dan skema penggabungan model berdasarkan penelitian baru dari EMNLP 2024, sebuah konferensi populer untuk natural language processing. Penelitian ini memperkenalkan metode baru untuk memitigasi “catastrophic forgetting,” sebuah fenomena ketika model AI melupakan kemampuan yang telah dipelajari sebelumnya (bahasa Inggris, matematika) setelah dilatih dengan kemampuan baru (bahasa Bulgaria).

“Hasil yang ditunjukkan oleh INSAIT sangat signifikan karena secara nyata menunjukkan bahwa negara sebesar Bulgaria pun dapat membangun model AI yang canggih dengan mengandalkan model terbuka, penelitian AI tingkat lanjut, serta teknik akuisisi dan pelatihan data khusus. ,” kata Martin Vechev, profesor penuh di ETH Zurich dan direktur ilmiah INSAIT. “Meskipun model kami menargetkan bahasa Bulgaria, metode cabang dan penggabungan yang kami perkenalkan di EMNLP 2024 untuk mengurangi bencana lupa berlaku untuk perolehan yang baru. bahasa.”

Chat preference in Bulgarian based on GPT4o-as-a-Judge

Saat ini, model terbuka INSAIT menyediakan akses gratis berkinerja tinggi untuk model bahasa Bulgaria, memajukan natural language processing di Bulgaria dan menawarkan peluang yang lebih besar bagi orang lain yang tertarik mengembangkan solusi AI yang dilokalkan. INSAIT bahkan telah meluncurkan sistem chat publik nasional berbasis varian model BgGPT-Gemma. Ini adalah pertama kalinya lembaga pemerintah Eropa meluncurkan sistem chat nasional berdasarkan model AI generatif yang tersedia untuk umum, gratis, dan terbuka.


Menghubungkan komunitas melalui AI

Dirilisnya model terbuka dari AI Singapore dan INSAIT ini merupakan langkah signifikan menuju demokratisasi akses AI dan pemberdayaan komunitas lokal. Kedua tim menyoroti pentingnya keragaman bahasa dalam mengembangkan solusi AI dan telah menunjukkan bahwa hal tersebut bisa dicapai dengan mudah melalui solusi model terbuka seperti Gemma.

Kemungkinan dengan LLM yang dilokalkan sangatlah besar, dan kami bangga melihat developer yang ambisius menggunakan teknologi AI terbaru untuk menciptakan peluang baru bagi komunitas mereka. Karena itulah kami mengundang siapa pun yang terinspirasi oleh kisah-kisah ini untuk bergabung dalam kompetisi Kaggle kami yang berfokus pada pengadaptasian rangkaian model terbuka Gemma 2 untuk 73 bahasa yang memenuhi syarat.

Dengan beragam pilihan bahasa ini, kami mengumpulkan sumber daya pendukung dan praktik terbaik untuk membantu developer menciptakan LLM yang lebih baik dan lebih inklusif untuk komunitas di seluruh dunia. Bergabunglah dengan kompetisi ini sekarang juga; batas akhir pengiriman karya adalah 14 Januari 2025!