Salah satu batasan yang paling menarik dalam aplikasi jendela konteks panjang adalah pembuatan dan pemahaman kode. Codebase yang besar membutuhkan pemahaman mendalam tentang hubungan dan dependensi yang kompleks, sesuatu yang sulit dipahami oleh model AI tradisional. Dengan memperluas jumlah kode dengan jendela konteks besar, kita bisa membuka level akurasi dan kegunaan baru dalam pembuatan dan pemahaman kode.
Kami bermitra dengan Sourcegraph, pembuat asisten coding Cody AI yang mendukung LLM seperti Gemini 1.5 Pro dan Flash, untuk mengeksplorasi potensi jendela konteks panjang dalam skenario coding yang sesungguhnya. Fokus Sourcegraph dalam mengintegrasikan penelusuran kode dan kecerdasan ke dalam pembuatan kode AI, dan keberhasilan deployment Cody pada perusahaan dengan codebase yang besar dan kompleks seperti Palo Alto Networks dan Leidos, menjadikan mereka mitra yang ideal untuk eksplorasi ini.
Sourcegraph membandingkan performa Cody dengan jendela konteks token 1M (menggunakan Gemini 1.5 Flash dari Google) terhadap versi produksinya. Perbandingan langsung ini memungkinkan mereka untuk mengisolasi manfaat dari konteks yang diperluas. Mereka berfokus pada jawaban pertanyaan teknis, sebuah tugas penting bagi developer yang bekerja dengan codebase besar. Mereka menggunakan set data pertanyaan menantang yang membutuhkan pemahaman kode mendalam.
Hasilnya sangat mencolok. Tiga tolok ukur utama Sourcegraph—Essential Recall, Essential Concision, dan Helpfulness—menunjukkan peningkatan signifikan ketika menggunakan konteks yang lebih panjang.
Selain itu, penggunaan model konteks panjang secara drastis mengurangi tingkat halusinasi secara keseluruhan (pembentukan informasi yang salah secara faktual). Tingkat halusinasi turun dari 18,97% menjadi 10,48%, sebuah peningkatan akurasi dan keandalan yang signifikan.
Meskipun manfaat dari konteks panjang cukup signifikan, ada kompromi yang harus dilakukan. Waktu untuk mendapatkan token pertama meningkat secara linear dengan panjangnya konteks. Untuk mengatasi hal ini, Sourcegraph mengimplementasikan mekanisme pengambilan data dan arsitektur model konteks berlapis untuk melakukan cache status eksekusi model. Dengan Gemini 1.5 Flash dan model konteks panjang Pro, proses ini mengoptimalkan waktu untuk token pertama dari 30-40 detik menjadi sekitar 5 detik untuk konteks 1MB – peningkatan yang cukup besar untuk pembuatan kode dan bantuan teknis real-time.
Kolaborasi ini menunjukkan potensi transformatif model konteks panjang dalam merevolusi pemahaman dan pembuatan kode. Kami sangat senang bisa bermitra dengan perusahaan seperti Sourcegraph untuk terus membuka paradigma dan aplikasi yang lebih inovatif lagi dengan jendela konteks besar.
Untuk lebih mendalami metodologi evaluasi, tolok ukur, dan analisis terperinci dari Sourcegraph, termasuk contoh-contoh ilustratif, jangan lewatkan postingan blog lengkap mereka.