Assistentes de codificação de IA turbinados com o contexto longo dos modelos Gemini

NOV 07, 2024
Vishal Dharmadhikari Product Solutions Engineer
Paige Bailey AI Developer Experience Engineer
Beyang Liu Sourcegraph

Uma das fronteiras mais estimulantes na aplicação de janelas de contexto longo é a geração e compreensão de código. Grandes bases de código exigem uma compreensão profunda de relacionamentos e dependências complexos, algo que os modelos de IA tradicionais têm dificuldade para entender. Ao expandir a quantidade de código com grandes janelas de contexto, podemos desbloquear um novo nível de acurácia e utilidade na geração e compreensão de código.

Fizemos uma parceria com a Sourcegraph, criadora do assistente de codificação Cody AI, que dá suporte a LLMs como o Gemini 1.5 Pro e Flash, para explorar o potencial das janelas de contexto longo em cenários de codificação do mundo real. O foco da Sourcegraph na integração de pesquisa e inteligência de código para a geração de código de IA e a implantação bem-sucedida do Cody em empresas com bases de código grandes e complexas, como a Palo Alto Networks e a Leidos, fizeram dela a parceira ideal para essa exploração.


Abordagem e resultados da Sourcegraph

A Sourcegraph comparou o desempenho do Cody usando uma janela de contexto de um milhão de tokens (com o Gemini 1.5 Flash do Google) com sua versão de produção. Essa comparação direta permitiu isolar os benefícios do contexto expandido. Eles se concentraram nas respostas a perguntas técnicas, uma tarefa crucial para desenvolvedores que trabalham com grandes bases de código. Eles usaram um conjunto de dados com perguntas desafiadoras que exigiam uma compreensão profunda do código.

Os resultados foram impressionantes. Três dos principais comparativos de mercado da Sourcegraph, Recall essencial, Concisão essencial e Utilidade, demonstraram melhorias significativas no uso do contexto mais longo.

  • Recall essencial: a proporção de fatos cruciais na resposta aumentou substancialmente.

  • Concisão essencial: a proporção de fatos essenciais normalizados pelo comprimento da resposta também melhorou, indicando respostas mais concisas e relevantes.

  • Utilidade: a pontuação geral de utilidade, normalizada pelo comprimento da resposta, aumentou significativamente, indicando uma experiência mais fácil de usar.
Sourcegraph’s key benchmarks

Além disso, o uso de modelos de contexto longo reduziu drasticamente a taxa geral de alucinação (a geração de informações factualmente incorretas). A taxa de alucinação diminuiu de 18,97% para 10,48%, uma melhoria significativa de acurácia e confiabilidade.


Desvantagens e direção futura

Embora os benefícios do contexto longo sejam significativos, há algumas desvantagens. O tempo para o primeiro token aumenta linearmente com o comprimento do contexto. Para mitigar isso, a Sourcegraph implementou um mecanismo de pré-busca e uma arquitetura de modelo de contexto em camadas para o armazenamento em cache do estado de execução do modelo. Com os modelos Gemini 1.5 Flash e Pro de contexto longo, isso otimizou o tempo para o primeiro token de 30 a 40 segundos para cerca de 5 segundos em contextos de 1 MB, uma melhoria considerável para a geração de código em tempo real e a assistência técnica.

Essa colaboração demonstra o potencial transformador dos modelos de contexto longo para revolucionar a compreensão e geração de código. Estamos empolgados com as parcerias com empresas como a Sourcegraph para continuar a desbloquear aplicações e paradigmas ainda mais inovadores com as janelas de contexto grandes.

Para se aprofundar nos detalhes das metodologias de avaliação, dos comparativos de mercado e das análises da Sourcegraph, incluindo exemplos ilustrativos, não perca a postagem de blog detalhada da empresa.