Gemini 1.5: nosso modelo de última geração, agora disponível para pré-lançamento particular no Google AI Studio

FEV 15, 2024
Jaclyn Konzelmann Google Labs
Wiktor Gworek Google Labs

Na semana passada, lançamos o Gemini 1.0 Ultra no Gemini Advanced. Para testar agora, faça uma assinatura do Gemini Advanced. O modelo 1.0 Ultra, acessível por meio da API Gemini, chamou muito a atenção da comunidade e continua a ser disponibilizado para desenvolvedores e parceiros selecionados no Google AI Studio.

Hoje temos o prazer de anunciar o modelo Gemini 1.5 de última geração, que usa uma nova abordagem Mixture-of-Experts (MoE) para aumentar a eficiência. Sua solicitação é direcionada a um grupo de redes neurais menores de “especialistas”, o que gera respostas mais rápidas e de maior qualidade.

Os desenvolvedores podem se inscrever no pré-lançamento particular do Gemini 1.5 Pro, nosso modelo multimodal de médio porte para escalonamento em uma ampla gama de tarefas. O modelo apresenta uma nova janela experimental de contexto com 1 milhão de tokens e está disponível para testes no Google AI Studio. O Google AI Studio é a forma mais rápida de criar com modelos do Gemini e permite aos desenvolvedores integrar facilmente a API Gemini nos aplicativos. Ele está disponível em 38 idiomas em mais de 180 países e territórios.

1 milhão de tokens: desbloqueio de novos casos de uso para desenvolvedores

Até hoje, a maior janela de contexto do mundo para um modelo de linguagem grande disponível publicamente era de 200 mil tokens. Conseguimos aumentar significativamente isso, executando até 1 milhão de tokens de forma consistente, alcançando a janela de contexto mais longa de qualquer modelo básico de grande escala. O Gemini 1.5 Pro vai ter uma janela de contexto de 128 mil tokens por padrão, mas o pré-lançamento particular de hoje vai permitir o acesso à janela de contexto experimental de 1 milhão de tokens.

Estamos entusiasmados com as novas possibilidades das janelas de contexto maiores. Você pode fazer upload diretamente de PDFs grandes, repositórios de código ou até vídeos longos como comandos no Google AI Studio, e o Gemini 1.5 Pro vai ponderar entre as modalidades e produzir o texto.

1) Fazer upload de vários arquivos e enviar perguntas
Adicionamos a capacidade de os desenvolvedores fazerem upload de vários arquivos, como PDFs, e fazerem perguntas no Google AI Studio. A janela de contexto maior permite que o modelo receba mais informações, tornando o resultado mais consistente, relevante e útil. Com essa janela de contexto de 1 milhão de tokens, conseguimos carregar mais de 700 mil palavras de texto de uma só vez.

O Gemini 1.5 Pro pode encontrar e usar citações específicas para ponderação em toda a transcrição em PDF da Apollo 11. [O vídeo foi acelerado para fins de demonstração]

2) Consultar um repositório de código inteiro

A grande janela de contexto também permite uma análise profunda de toda uma base de código, ajudando os modelos do Gemini a entender códigos, padrões e relacionamentos complexos. O desenvolvedor pode fazer upload de uma nova base de código diretamente do computador ou por meio do Google Drive e usar o modelo para integrar rapidamente e ter uma compreensão do código.

O Gemini 1.5 Pro pode ajudar os desenvolvedores a aumentar a produtividade ao aprender uma nova base de código. [O vídeo foi acelerado para fins de demonstração]

3) Adicionar um vídeo completo

O Gemini 1.5 Pro também pode usar até 1 hora de vídeo para ponderar. Quando você anexa um vídeo, o Google AI Studio o divide em milhares de frames (sem áudio) e então você pode realizar tarefas de raciocínio e resolução de problemas altamente sofisticadas, já que os modelos do Gemini são multimodais.

O Gemini 1.5 Pro pode realizar tarefas de raciocínio e resolução de problemas em vídeo e outras entradas visuais. [O vídeo foi acelerado para fins de demonstração]

Mais formas para os desenvolvedores criarem com modelos do Gemini

Além de trazer as mais recentes inovações de modelos, também estamos facilitando a criação com o Gemini:

  • Facilidade para ajustar. Dê um conjunto de exemplos e você vai poder personalizar o Gemini para suas necessidades específicas em minutos no Google AI Studio. Esse recurso será lançado nos próximos dias. 
  • Novas plataformas para desenvolvedores. Integre a API Gemini para criar novos recursos com tecnologia de IA hoje usando as novas Extensões do Firebase em todo o seu espaço de trabalho de desenvolvimento no Project IDX ou com o recém-lançado SDK Dart do Google AI
  • Preços mais baixos para o Gemini 1.0 Pro. Também estamos atualizando o modelo 1.0 Pro, que oferece um bom equilíbrio de custo e desempenho para muitas tarefas de IA. A versão estável de hoje custa 50% menos para entradas de texto e 25% menos para saídas do que o anunciado anteriormente. Os próximos planos de pagamento por uso para o AI Studio vão estar disponíveis em breve.

Desde dezembro, desenvolvedores de todos os tamanhos criam com modelos do Gemini, e estamos felizes em transformar pesquisas de ponta em produtos antecipados para desenvolvedores no Google AI Studio. Esta versão de pré-lançamento pode apresentar alguma latência devido à natureza experimental do recurso de janela de contexto grande, mas estamos animados para iniciar um lançamento em fases à medida que continuamos a ajustar o modelo e receber seu feedback. Esperamos que essa experiência inicial também seja incrível para você.