Bagi developer dan peneliti dalam ekosistem JAX, jalur dari model yang telah dilatih sebelumnya ke LLM siap produksi yang sepenuhnya selaras menjadi jauh lebih sederhana.
Hari ini, kami sangat senang bisa memperkenalkan Tunix, library native JAX open source baru yang dibuat khusus untuk pasca pelatihan LLM. Tunix menutup celah kritis dengan menyediakan toolkit yang komprehensif dan ramah developer untuk menyelaraskan model dalam skala besar.
Dibangun untuk performa pada TPU, terutama ketika dikombinasikan dengan MaxText, Tunix menawarkan:
Rilis awal ini menyediakan API yang modular dan mudah digunakan untuk alur kerja pasca-pelatihan yang paling umum, terintegrasi secara mulus dengan ekosistem JAX:
PeftTrainer
adalah model-agnostik dan mendukung metode penyempurnaan bobot penuh dan penyesuaian parameter yang efisien serta populer seperti LoRA dan QLoRA (melalui integrasi kami dengan library qwix).DPOTrainer
menyederhanakan penyelarasan dengan menerapkan Direct Preference Optimization (DPO). Teknik canggih ini menggunakan set data sederhana dari respons yang disukai dan ditolak, tanpa perlu melatih dan mengelola model reward secara terpisah.PPOLearner
: Menyediakan metode kritik-aktor dengan standar emas untuk RLHF dengan mengimplementasikan Proximal Policy Optimization (PPO). Hal ini sangat penting untuk model pelatihan pada tugas berurutan yang kompleks, terutama untuk alur kerja agentik baru yang melibatkan penggunaan alat.GRPOLearner
: Menawarkan algoritme RL yang sangat efisien dan bebas kritik. Algoritme ini mengimplementasikan Group Relative Policy Optimization(GRPO), yang menormalkan reward di kelompok respons yang dihasilkan untuk memandu model tanpa kompleksitas dan biaya dari model kritik terpisah.Group Sequence Policy Optimization (GSPO-token)
: Menawarkan varian algoritme GRPO yang memberikan fleksibilitas yang lebih baik untuk menyesuaikan komputasi keuntungan tingkat token, dan bisa meningkatkan stabilitas untuk pelatihan RL multi-giliran.DistillationTrainer
memungkinkan kompresi model dengan melatih model ‘siswa’ yang lebih kecil dan efisien untuk mereplikasi output dari model ‘guru’ yang lebih besar. Ini adalah teknik penting untuk menerapkan model berkinerja tinggi di lingkungan produksi dengan latensi ketat atau batasan biaya. Tunix menyediakan algoritme distilasi berikut secara langsung:Kami telah membuat beberapa notebook Python untuk membantu pengguna menggunakan Tunix. Hasil di bawah ini menunjukkan keefektifan implementasi GRPO Tunix. Pada tolok ukur penalaran matematika GSM8K, menyempurnakan model Gemma 2 2B-IT dengan Tunix menghasilkan ~12% peningkatan relatif dalam akurasi jawaban pass@1. Kami mengamati peningkatan yang menjanjikan di semua metrik, yang menunjukkan kemampuan library untuk menyelaraskan perilaku model dengan cepat dan efektif.
Untuk mengakomodasi sifat stochastic pembuatan teks, kami mengevaluasi performa menggunakan pass@1 (penelusuran greedy) dan pass@5 (pengambilan sampel dengan keragaman) untuk mengukur ketepatan dalam satu atau lima kali percobaan. Evaluasi kami berfokus pada tiga metrik utama:
Untuk validasi, akurasi pass@1 baseline kami sebesar ~52% selaras dengan ~51% yang dilaporkan oleh Eleuther LM Eval Harness untuk model dasar, yang mengonfirmasi validitas pengaturan kami. Meskipun akurasi absolut sensitif terhadap pemformatan prompt (mis. menggunakan <start_answer> vs. <answer>), peningkatan performa yang signifikan dari pasca pelatihan tetap konsisten dalam berbagai setelan.
Link to Youtube Video (visible only when JS is disabled)
Dari lab akademis terkemuka hingga startup AI, Tunix telah mendukung gelombang pengembangan ML yang berikutnya. Kami mengembangkan Tunix bekerja sama dengan mitra kami untuk memecahkan tantangan dunia nyata dalam penyelarasan model dan AI agentik. Inilah yang mereka katakan:
"Penelitian saya berfokus pada pembelajaran yang berpusat pada data, yang melibatkan penyiapan data berkualitas tinggi untuk meningkatkan performa model, terutama pada fase pasca-pelatihan model bahasa besar (LLM). Tantangan utamanya adalah melakukan iterasi dengan cepat pada sampel data untuk mengidentifikasi mana yang bermanfaat dan mana yang tidak. Untuk hal ini, Tunix adalah library yang sempurna. Desain ‘white-box’-nya memberikan tim saya kontrol penuh atas loop pelatihan, sehingga kami dapat dengan mudah memodifikasi dan mengadaptasi kode untuk kebutuhan penelitian kami yang spesifik. Fleksibilitas ini merupakan keunggulan yang signifikan dibandingkan framework lain dan sangat penting untuk mempercepat analisis data iteratif kami."
— Hongfu Liu, Assistant Professor of Computer Science, Brandeis University; Senior Area Chair for NeurIPS; Area Chair for ICLR
"Bottleneck utama dalam reinforcement learning pasca pelatihan adalah kelangkaan lingkungan dengan reward yang dapat diverifikasi. Game menyediakan lingkungan multi-giliran yang sempurna untuk mengatasi hal ini, dan Tunix adalah framework yang ideal untuk penelitian ini. Ini memungkinkan kami untuk membangun langsung di atas JAX, memanfaatkan TPU dan paralelisasi yang mudah. Dibandingkan dengan alternatif lain, Tunix adalah library yang ringan dengan codebase yang bersih dan mudah dikelola. Ia menawarkan kustomisasi model tingkat tinggi dan hiperparameter tanpa lapisan abstraksi yang berlebihan seperti framework lainnya. Pendekatan yang efisien ini sangat penting untuk pekerjaan kami, dan kami menemukan bahwa kurva pembelajarannya cukup landai, karena Anda tidak perlu menjadi ahli JAX untuk bisa menggunakannya secara efektif."
— Hao Zhang, Assistant Professor, UC San Diego, Co-creator vLLM, Chatbot Arena (LMSys), dan Inventor Disaggregated Serving
Precur AI adalah startup yang membangun Agent Compiler yang mentransformasi alur kerja latar belakang menjadi agen berbasis kode yang andal dan efisien. Hanjun Dai, Co-Founder dan CTO, berkata:
"Perusahaan kami berfokus pada agen latar belakang yang berjalan 24/7 tanpa pengawasan. Tujuan utamanya adalah ketahanan agen, jadi kami melakukan “kernel agen” pasca-pelatihan - model yang dioptimalkan untuk tugas jangka panjang tetapi repetitif. Luasnya desain Tunix, yang mencakup SFT, RL, dan distilasi, memungkinkan kami menjaga seluruh agent development stack tetap terpadu. Integrasi aslinya dengan ekosistem JAX dan TPU merupakan keuntungan yang signifikan. Kemudahan kustomisasi dengan Flax untuk pengembangan dan Qwix untuk penyajian dalam bentuk kuantisasi menjadikannya framework yang bersih dan kuat yang sangat cocok dengan alur kerja kami."
— Hanjun Dai, Cofounder dan CTO, PreCur AI
Kami membangun Tunix secara terbuka dan mengundang Anda untuk bergabung, mencoba langsung, dan ikut berkontribusi dalam komunitas kami.
Kami sangat senang bisa berbagi Tunix dengan komunitas JAX dan tak sabar ingin segera melihat kreasi Anda.