긴 컨텍스트 창 적용 시 가장 흥미로운 부분 중 하나로 코드 생성과 이해를 꼽을 수 있습니다. 대규모 코드베이스는 복잡한 관계와 종속성에 대한 깊은 이해를 필요로 하는데, 이는 전통적인 AI 모델은 파악하기 어려운 부분입니다. 큰 컨텍스트 창으로 코드의 양을 확장함으로써 코드의 생성과 이해에 있어 새로운 수준의 정확성과 유용성을 달성할 수 있습니다.
Google은 Gemini 1.5 Pro 및 Flash와 같은 LLM을 지원하는 코딩 어시스턴트 Cody AI의 제작사인 Sourcegraph와 협력하여 실제 코딩 시나리오에서 긴 컨텍스트 창의 잠재력을 탐색했습니다. 코드 검색과 인텔리전스를 AI 코드 생성에 통합하고 Palo Alto Networks, Leidos 등 크고 복잡한 코드베이스를 보유한 기업에 Cody를 성공적으로 배포하는 데 주력해 온 Sourcegraph는 이 탐색을 위한 이상적인 파트너입니다.
Sourcegraph는 (Google의 Gemini 1.5 Flash로) 1M 토큰 컨텍스트 창을 사용할 경우 Cody의 성능을 프로덕션 버전과 비교했습니다. 이러한 직접적인 비교를 통해 확장된 컨텍스트의 이점을 정확히 파악할 수 있었습니다. Sourcegraph는 대규모 코드베이스로 작업하는 개발자에게 매우 중요한 작업인 기술적 질문에 대한 답변에 중점을 두었습니다. 이를 위해 그들은 코드에 대한 심층적인 이해가 필요한 까다로운 질문으로 구성된 데이터 세트를 사용했습니다.
결과는 놀라웠습니다. Sourcegraph의 세 가지 주요 벤치마크인 Essential Recall, Essential Concision, Helpfulness는 더 긴 컨텍스트를 사용할 경우 크게 개선되었습니다.
더욱이, 긴 컨텍스트 모델을 사용하면서 전반적인 환각률(사실 관계가 잘못된 정보 생성 비율)이 크게 줄었습니다. 환각률이 18.97%에서 10.48%로 감소하여 정확성과 신뢰성이 유의미하게 향상되었습니다.
긴 컨텍스트의 이점이 상당하긴 하지만 잃는 것도 있습니다. 첫 번째 토큰까지의 시간이 컨텍스트의 길이에 따라 선형적으로 증가합니다. Sourcegraph는 이 문제를 완화하기 위해 모델 실행 상태 캐싱을 위한 계층화된 컨텍스트 모델 아키텍처와 미리 가져오기 메커니즘을 구현했습니다. Gemini 1.5 Flash 및 Pro의 긴 컨텍스트 모델을 사용하면 1MB 컨텍스트에 대한 첫 번째 토큰까지의 시간이 30~40초에서 약 5초로 최적화되어 실시간 코드 생성 및 기술 지원에 있어 상당한 개선이 이루어졌습니다.
이러한 협업은 코드 이해와 생성을 혁신하는 데 있어 긴 컨텍스트 모델의 변화 가능성을 보여줍니다. Sourcegraph 같은 여러 기업과 협력하여 큰 컨텍스트 창을 통한 훨씬 더 혁신적인 애플리케이션과 패러다임을 계속해서 개척해 나가길 기대합니다.
예시 사례를 비롯하여 Sourcegraph의 상세한 평가 방법론, 벤치마크, 분석에 대해 자세히 알아보려면 심층적 블로그 게시물을 놓치지 마세요.