Kami sangat antusias merayakan kontribusi yang luar biasa dari komunitas dalam kompetisi Membuka Komunikasi Global dengan Gemma di Kaggle! Developer mengatasi tantangan penting dalam AI untuk mengadaptasi model bahasa besar (LLM) termutakhir untuk beragam konteks budaya dan bahasa.
Model sering kali menunjukkan bias terhadap bahasa dengan resource tinggi karena menjadi bahasa tersebut menjadi dominan dalam set data pelatihan dan evaluasi mereka. Hal ini bisa menyebabkan kesenjangan performa, sehingga kemajuan AI terbaru tidak dapat direalisasikan dalam bahasa dengan resource yang lebih rendah. Selain itu, model ini mungkin tidak hanya kurang memahami bahasa tersebut, tetapi juga konteks budaya yang relevan yang membuat model ini lebih bermanfaat bagi komunitas.
Kami sangat terkesan dengan solusi kreatif komunitas untuk menerjemahkan bahasa, lirik, teks kuno, dan lainnya.
Melalui ratusan kiriman aplikasi, developer mendemonstrasikan cara membawa kekuatan transformatif LLM ke berbagai bahasa di seluruh dunia. Project ini memanfaatkan set data khusus dan metode pasca-pelatihan yang efisien untuk mengadaptasi Gemma untuk mengikuti instruksi, penerjemahan, dan domain tertentu. Kami mendorong Anda untuk menjelajahi notebook di Kaggle untuk melihat teknik ini beraksi dan menerapkannya pada project multibahasa Anda sendiri.
Project pertama yang mengadaptasi Gemma untuk pemahaman bahasa Swahili, membuka kemungkinan baru untuk menjangkau lebih dari 200 juta penutur bahasa tersebut. Model Gemma disempurnakan menggunakan teknik penyempurnaan yang efisien untuk ukuran parameter 2B, 9B, dan 27B.
Aspek utama dari penyetelan mereka adalah “fleksibilitas Gemma yang luar biasa dalam pemformatan instruksi-respons,” yang memungkinkan model mengurai instruksi dengan batasan struktural minimal dan menghasilkan respons yang koheren di berbagai format input.
Knowledge Yielding Adaptive Retrieval Augmentation (Kyara) menjelajahi proses pengambilan untuk penyempurnaan LLM, mendemonstrasikan cara meningkatkan kemampuan Gemma untuk menghasilkan respons yang tepat dalam bahasa Mandarin Tradisional.
Project ini berfokus pada pembuatan set data pertanyaan & jawaban berkualitas tinggi (Q&A) menggunakan pendekatan berbasis grafik untuk pengambilan pengetahuan, yang terinspirasi dari cara manusia belajar dengan menghubungkan konsep.
Project ini menyempurnakan Gemma untuk tugas berbahasa Arab, termasuk penerjemahan, peringkasan, penceritaan, dan pembuatan dialog.
Sebagai bahasa yang memiliki sejarah yang kaya, project ini juga bertujuan untuk meningkatkan pemahaman bentuk bahasa Arab yang lebih tua yang digunakan dalam teks sastra dan seni, menggunakan berbagai teknik untuk menjembatani tugas antara Bahasa Arab Standar Modern dan Bahasa Arab Klasik.
Project ini berfokus meningkatkan pemahaman bahasa Italia untuk Gemma menggunakan pendekatan pasca-pelatihan hemat biaya yang mengatasi kendala seperti halusinasi dan kelupaan yang parah.
Ukuran model 2B dan 9B disesuaikan dengan baik pada campuran data, termasuk set data penyetelan instruksi baru yang dibuat menggunakan LLM-sebagai-juri untuk memastikan kualitas terjemahan.
Project ini mengembangkan “Ancient Chinese Expert” menggunakan Gemma untuk memahami dan menghasilkan terjemahan untuk teks Tiongkok kuno, menyoroti potensi LLM untuk pelestarian budaya bersejarah.
Model ini disempurnakan dengan set data yang komprehensif untuk meningkatkan pemahaman linguistik, dan pasca-pelatihan mencakup teknik untuk meningkatkan kemampuan mengikuti instruksi.
Project ini menangani tantangan bernuansa khusus untuk penerjemahan lirik berbasis AI, meningkatkan sensitivitas Gemma terhadap referensi budaya dan bahasa simbolis, sekaligus memastikan ketepatan ritme terhadap lagu aslinya.
Set data multibahasa berisi terjemahan lirik yang dianotasi untuk menangkap konteks budaya yang krusial, nada emosional, dan fitur ritmik, memungkinkan model memahami dan meniru kedalaman artistik isi lirik.
Project ini mengadaptasi Gemma 2 JPN untuk menghasilkan Yomigana/Furigana, sebuah alat bantu baca untuk teks bahasa Jepang dan membantu pelajar bahasa Jepang atau pembaca yang mengalami kesulitan dalam memahami huruf Kanji yang rumit.
Meskipun saat ini sudah ada alat berbasis aturan lainnya, LLM bisa mengenali Kanji langka dengan lebih baik dan “menafsirkan konteks kalimat, sehingga memungkinkan disambiguasi Kanji polifonik secara akurat”. Notebook ini juga mencatat bahwa kemampuan percakapan telah menurun karena pelatihan pada tugas penerjemahan tunggal.
Project ini meningkatkan pemahaman matematis dan logika Gemma dalam kata-kata numerik Hindi, yang menghadirkan tantangan bagi model untuk menginterpretasikan formasi kata yang kompleks, misalnya “दो सौ” untuk “200” atau “ढाई” untuk “2,5”.
Model 9B disempurnakan dengan set data yang telah dikurasi dan diverifikasi oleh ahli manusia yang berisi berbagai jenis pertanyaan, membuka penggunaan alat edukasi berbasis AI, bimbingan belajar otomatis, dan konten yang dilokalkan.
Project ini menyempurnakan model 9B Gemma 2 untuk tugas penerjemahan dalam bahasa Kazakh. Bahasa yang ditulis dalam tiga skrip berbeda (Sirilik, Latin, dan Arab), versi Sirilik membutuhkan token sekitar dua kali lebih banyak daripada bahasa Inggris, sehingga menghadirkan tantangan untuk pelatihan dengan resource yang terbatas.
Performa model menunjukkan tolok ukur yang lebih baik daripada varian Gemma 27B dan Google Terjemahan, menunjukkan cara mengadaptasi LLM untuk bahasa yang kurang terwakili menggunakan pendekatan yang hemat biaya.
Project ini memungkinkan Gemma untuk memahami dan menerjemahkan bahasa Inggris Kuno, bentuk bahasa Inggris yang paling awal tercatat. Set data khusus dengan pasangan bahasa Inggris Kuno-Inggris Modern dibuat untuk membantu mengatasi tantangan dalam bekerja dengan bahasa bersejarah dan keterbatasan data yang tersedia untuk publik.
Notebook ini juga menyediakan bonus komponen pembuatan audio, berdasarkan model open source text-to-speech bahasa Islandia, yang menawarkan perkiraan bagaimana suara yang seharusnya terdengar.
Dengan lebih dari 7.000 bahasa yang digunakan di seluruh dunia, potensi AI untuk menjembatani kesenjangan komunikasi sangatlah besar. Keluarga model terbuka Gemma menyediakan fondasi yang kuat bagi developer untuk mengadaptasi model berkinerja tinggi ke bahasa dengan resource rendah.
Inovasi dan dedikasi yang ditunjukkan oleh komunitas Kaggle dalam mengadaptasi Gemma 2 untuk berbagai bahasa benar-benar menginspirasi. Saat kami terus membangun masa depan di mana AI memberdayakan komunikasi global untuk semua orang, kami sangat antusias dengan Gemma 3, yang menghadirkan dukungan pralatih untuk lebih dari 140 bahasa, menjadikannya fondasi yang bagus untuk membangun.
Kami mendorong developer untuk mengeksplorasi berbagai kemungkinan yang ada di Gemma, membagikan set data dan model mereka dengan yang lain, dan terus memajukan AI multibahasa bersama-sama.