T5Gemma: Koleksi model Gemma baru berbasis encoder-decoder

9 JULI 2025
Biao Zhang Research Scientist
Paul Suganthan Staff Software Engineer
Ben Hora Product Manager

Dalam lanskap model bahasa besar (LLM) yang berkembang pesat, sebagian besar sorotan berfokus pada arsitektur hanya-decoder. Meskipun model ini menunjukkan kemampuan yang mengesankan di berbagai tugas pembuatan, arsitektur encoder-decoder klasik, seperti T5 (The Text-to-Text Transfer Transformer), tetap menjadi pilihan populer untuk banyak aplikasi dunia nyata. Model encoder-decoder sering kali unggul dalam peringkasan, penerjemahan, QA, dan lainnya karena efisiensi inferensi yang tinggi, fleksibilitas desain, dan representasi encoder yang lebih kaya untuk memahami input. Namun, arsitektur encoder-decoder yang kuat ini hanya mendapat sedikit perhatian.

Hari ini, kami meninjau kembali arsitektur ini dan memperkenalkan T5Gemma, sebuah koleksi baru LLM encoder-decoder yang dikembangkan melalui konversi model hanya-decoder terlatih menjadi arsitektur encoder-decoder dengan teknik yang disebut adaptasi. T5Gemma dibangun di atas framework Gemma 2, mencakup model Gemma 2 berukuran 2B dan 9B yang telah diadaptasi, serta serangkaian model berukuran T5 yang baru dilatih (Small, Base, Large, dan XL). Kami dengan antusias merilis model T5Gemma versi terlatih dan yang telah disetel berdasarkan instruksi kepada komunitas, untuk membuka peluang baru dalam riset dan pengembangan.


Dari hanya-decoder ke encoder-decoder

Di T5Gemma, kami mengajukan pertanyaan berikut: Dapatkah kita membangun model encoder-decoder tingkat atas berdasarkan model hanya-decoder terlatih? Kami menjawab pertanyaan ini dengan mengeksplorasi teknik yang disebut adaptasi model. Ide intinya adalah melakukan inisialiasi parameter model encoder-decoder dengan bobot dari model hanya-decoder yang sudah terlatih, kemudian mengadaptasinya lebih lanjut melalui tahap pra-pelatihan berbasis UL2 atau PrefixLM.

decoder-only model
Ringkasan pendekatan kami, menunjukkan cara kami melakukan inisialiasi model encoder-decoder baru menggunakan parameter dari model hanya-decoder terlatih.

Metode adaptasi ini sangat fleksibel, memungkinkan kombinasi ukuran model yang kreatif. Sebagai contoh, kami bisa memasangkan encoder besar dengan decoder kecil (mis., encoder 9B dengan decoder 2B) untuk membuat model yang “tidak seimbang”. Hal ini memungkinkan kami menyesuaikan keseimbangan kualitas-efisiensi untuk tugas tertentu, seperti peringkasan, ketika pemahaman yang mendalam tentang input lebih penting daripada kompleksitas output yang dihasilkan.


Menuju keseimbangan yang lebih optimal antara kualitas dan efisiensi

Seperti apa performa T5Gemma?

Dalam eksperimen kami, model T5Gemma mencapai performa yang setara atau lebih baik daripada model Gemma yang hanya menggunakan decoder, nyaris mendominasi batas pareto efisiensi kualitas-inferensi di beberapa tolok ukur, seperti SuperGLUE yang mengukur kualitas representasi yang dipelajari.

Encoder-decoder models benchmarks
Model encoder-decoder secara konsisten menawarkan performa yang lebih baik untuk level komputasi inferensi yang diberikan, sehingga menjadi pemimpin dalam hal kualitas-efisiensi di berbagai tolok ukur.

Keunggulan performa ini bukan hanya teoritis; tetapi juga diterjemahkan ke dalam kualitas dan kecepatan di dunia nyata. Ketika mengukur latensi aktual untuk GSM8K (penalaran matematika), T5Gemma memberikan kemenangan yang jelas. Sebagai contoh, T5Gemma 9B-9B mencapai akurasi yang lebih tinggi daripada Gemma 2 9B tetapi dengan latensi yang sama. Yang lebih mengesankan lagi, T5Gemma 9B-2B memberikan lonjakan akurasi signifikan dibandingkan model 2B-2B, dengan latensi yang hampir setara dengan model Gemma 2 2B yang ukurannya jauh lebih kecil. Pada akhirnya, eksperimen ini menunjukkan bahwa adaptasi encoder-decoder menawarkan cara yang fleksibel dan andal untuk menyeimbangkan kualitas dan kecepatan inferensi.


Membuka kemampuan dasar dan kemampuan yang disempurnakan

Dapatkah LLM encoder-decoder memiliki kemampuan yang setara dengan model hanya-decoder?

Ya, T5Gemma menunjukkan kemampuan yang menjanjikan, baik sebelum maupun sesudah penyetelan instruksi.

Setelah pra-pelatihan, T5Gemma mencapai hasil yang mengesankan pada tugas kompleks yang membutuhkan penalaran. Sebagai contoh, T5Gemma 9B-9B mendapatkan skor lebih dari 9 poin lebih tinggi pada GSM8K (penalaran matematika) dan 4 poin lebih tinggi pada DROP (pemahaman bacaan) daripada model Gemma 2 9B asli. Pola ini menunjukkan bahwa arsitektur encoder-decoder, ketika diinisialisasi melalui adaptasi, memiliki potensi untuk menciptakan model dasar yang lebih mumpuni dan berkinerja baik.

Detailed results for pretrained models
Hasil terperinci untuk model terlatih, menggambarkan bagaimana model yang diadaptasi memiliki peningkatan yang signifikan pada beberapa tolok ukur penalaran-intensif dibandingkan Gemma 2 yang hanya menggunakan decoder.

Peningkatan mendasar dari tahap pra-pelatihan ini menjadi landasan bagi pencapaian yang lebih signifikan setelah proses penyetelan instruksi. Sebagai contoh, dengan membandingkan Gemma 2 IT dengan T5Gemma IT, kesenjangan performa melebar secara signifikan di seluruh bagian. T5Gemma 2B-2B IT mengalami lonjakan skor MMLU hampir 12 poin dibandingkan Gemma 2 2B, dan skor GSM8K meningkat dari 58,0% menjadi 70,7%. Arsitektur hasil adaptasi ini tidak hanya berpotensi memberikan titik awal yang lebih baik, tetapi juga menunjukkan respons yang lebih efektif terhadap penyetelan instruksi, sehingga menghasilkan model akhir yang jauh lebih unggul dan bermanfaat.

Results for fine-tuned + RLHFed models
Hasil terperinci untuk model yang disempurnakan + RLHFed, mengilustrasikan bagaimana tahap pasca-pelatihan secara signifikan memperkuat keunggulan performa dari arsitektur encoder-decoder.

Jelajahi model kami: Merilis checkpoint T5Gemma

Kami sangat bersemangat memperkenalkan metode baru ini untuk membangun model encoder-decoder serbaguna yang kuat dengan mengadaptasi dari LLM hanya-decoder terlatih seperti Gemma 2. Untuk membantu mempercepat penelitian lanjutan dan memungkinkan komunitas mengembangkan pekerjaan ini, kami sangat senang dapat merilis rangkaian checkpoint T5Gemma kami.

Rilis ini mencakup:

  • Beberapa Ukuran: Checkpoint untuk model berukuran T5 (Small, Base, Large, dan XL), model berbasis Gemma 2 (2B dan 9B), serta model tambahan di antara T5 Large dan T5 XL.

  • Beberapa Varian: Model terlatih dan model yang disetel sesuai instruksi.

  • Konfigurasi yang Fleksibel: Checkpoint 9B-2B tidak seimbang yang andal dan efisien untuk mengeksplorasi keseimbangan antara ukuran encoder dan decoder.

  • Tujuan Pelatihan yang Berbeda: Model-model ini dilatih dengan pendekatan PrefixLM atau UL2 untuk menghasilkan performa generatif mutakhir maupun kualitas representasi tingkat tinggi.


Kami berharap checkpoint ini akan memberikan sumber daya yang berharga untuk menginvestigasi arsitektur, efisiensi, dan performa model.


Memulai dengan T5Gemma

Kami tidak sabar ingin segera melihat kreasi Anda dengan T5Gemma. Untuk informasi lebih lanjut, silakan lihat link berikut:

  • Pelajari tentang penelitian di balik project ini dengan membaca makalahnya.

  • Jelajahi kemampuan model atau sesuaikan untuk kasus penggunaan Anda sendiri dengan notebook Colab.

  • Jalankan inferensi dengan model di Vertex AI.