Na semana passada, lançamos uma versão experimental atualizada do Gemini 1.5 Pro (0801) que ficou em primeiro lugar no placar do LMSYS para consultas de texto e multimodais. Ficamos tão animados com a resposta imediata a esse modelo que elevamos os limites para testá-lo. Teremos mais novidades em breve.
Hoje, estamos anunciando uma série de melhorias no AI Studio e na API Gemini:
O Flash 1.5 é nosso modelo Gemini mais popular entre os desenvolvedores que desejam criar casos de uso de alto volume e baixa latência, como resumo, categorização, compreensão multimodal e muito mais. Para tornar esse modelo ainda mais acessível, a partir de 12 de agosto, estamos reduzindo o preço de entrada em 78% para US$ 0,075/1 milhão de tokens, e o preço de saída em 71% para US$ 0,3/1 milhão de tokens para prompts abaixo de 128 mil tokens (com a progressão das reduções no nível com > 128 mil tokens, bem como o armazenamento em cache). Com esses preços, e ferramentas como o armazenamento de contexto em cache, os desenvolvedores deverão ver ótimas economias de custo ao criarem com o contexto longo e os recursos multimodais do Gemini 1.5 Flash.
Estamos expandindo a compreensão de idiomas para os modelos Gemini 1.5 Pro e Flash de forma a cobrir mais de 100 idiomas para que os desenvolvedores em todo o mundo possam emitir prompts e receber saídas no idioma de sua escolha. Isso deverá eliminar os motivos de bloqueio "language" do modelo por meio da API Gemini.
Os usuários do Google Workspace já podem acessar o Google AI Studio sem ativar nenhuma configuração adicional por padrão, desbloqueando o acesso sem atritos para milhões de usuários. Os administradores de contas ainda terão controle para gerenciar o acesso ao AI Studio.
Foi feito o lançamento do ajuste de texto do Gemini 1.5 Flash para todos os desenvolvedores por meio da API Gemini e do Google AI Studio. O ajuste permite que os desenvolvedores personalizem modelos de base e melhorem o desempenho para tarefas fornecendo dados adicionais ao modelo. Isso ajuda a reduzir o tamanho do contexto dos prompts, reduz a latência e, em alguns casos, o custo, além de aumentar a acurácia do modelo nas tarefas.
Nossa documentação do desenvolvedor é fundamental para a experiência de criação com a API Gemini. Recentemente, lançamos uma série de melhorias, atualizamos o conteúdo, a navegação e o visual e lançamos uma Referência da API remodelada.
Teremos muitas outras melhorias para a documentação em breve, então continue enviando seu feedback!
A API Gemini e o AI Studio agora dão suporte à compreensão de PDFs por meio de texto e visão. Se o PDF incluir gráficos, imagens ou outros conteúdos visuais não textuais, o modelo usará recursos multimodais nativos para processar o PDF. Você pode experimentar isso no Google AI Studio ou na API Gemini.
Nas últimas semanas, lançamos muitas melhorias no AI Studio, incluindo a reformulação de atalhos de teclado, permitindo arrastar e soltar imagens na IU, reduzindo o tempo de carregamento em aproximadamente 50%, adicionando sugestões de prompts e muito mais!
Os desenvolvedores estão no centro de todo o nosso trabalho na API Gemini e no Google AI Studio. Então, continue criando e compartilhando feedback conosco por meio do Fórum de desenvolvedores da API Gemini.