O Gemini 1.5 Pro já está disponível em mais de 180 países; com compreensão de áudio nativo, instruções do sistema, modo JSON e muito mais

ABR 09, 2024
Jaclyn Konzelmann Google Labs
Megan Li Google Labs

Tenha acesso a uma chave de API no Google AI Studio e comece a usar o Cookbook da API Gemini

Há menos de dois meses, disponibilizamos nosso modelo de última geração, o Gemini 1.5 Pro, no Google AI Studio para os desenvolvedores testarem. Estamos felizes em ver as depurações, as criações e os aprendizados da comunidade usando nossa inovadora janela de contexto de 1 milhão de tokens.

Hoje, disponibilizamos o Gemini 1.5 Pro em mais de 180 países por meio da API Gemini no pré-lançamento público, com o primeiro recurso de compreensão de áudio nativo (fala) e uma nova API File para gerenciar o processamento de arquivos. Também lançamos novas funcionalidades, como as instruções do sistema e o modo JSON, para dar aos desenvolvedores mais controle sobre a saída do modelo. Por fim, lançamos nosso modelo de incorporação de texto de última geração, que tem desempenho melhor do que os modelos de comparação. Entre no Google AI Studio para criar ou acessar sua chave de API e começar a criar.


Desbloqueie novos casos de uso com modalidades de áudio e vídeo

Expandimos as modalidades de entrada para o Gemini 1.5 Pro a fim de incluir a compreensão de áudio (fala) na API Gemini e no Google AI Studio. Além disso, o Gemini 1.5 Pro agora pode racionalizar entre imagens (frames) e áudio (fala) para vídeos enviados no Google AI Studio. Em breve, vamos adicionar suporte da API para essa funcionalidade.

screen grab of a clooege professor using Gemini 1.5 Pro to create a quiz based on their latest lecture video in Google AI Studio
Você pode enviar gravações, como esta palestra de Jeff Dean com mais de 117 mil tokens, para o Gemini 1.5 transformar em perguntas com uma chave de resposta. [O vídeo foi acelerado para finalidades de demonstração.]

Melhorias na API Gemini

Hoje, atendemos a várias das principais solicitações dos desenvolvedores:

1. Instruções do sistema: guie as respostas do modelo com instruções do sistema, agora disponíveis no Google AI Studio e na API Gemini. Defina funções, formatos, objetivos e regras para orientar o comportamento do modelo no seu caso de uso específico.

Image showing where System Instructions is located in Google AI Studio
Defina instruções do sistema facilmente no Google AI Studio

2. Modo JSON: instrua o modelo para gerar apenas objetos JSON. Esse modo permite a extração de dados estruturados em texto ou imagens. Você pode começar com cURL, e o suporte ao SDK Python estará disponível em breve.


3. Melhorias nas chamadas de função: agora você pode selecionar modos para limitar as saídas do modelo, melhorando a confiabilidade. Escolha texto, chamada de função ou apenas a própria função.


Um novo modelo de incorporação com melhor desempenho

A partir de hoje, os desenvolvedores podem acessar nosso modelo de incorporação de texto por meio da API Gemini. O novo modelo, text-embedding-004, (text-embedding-preview-0409 no Vertex AI), atinge um desempenho de recuperação mais eficiente, com desempenho melhor do que os modelos atuais com dimensões comparáveis nos comparativos de mercado MTEB.

table showing Gecko: Versativel Text Embeddings Distilled from Large Language Models
O text-embedding-004 (também conhecido como Gecko), usando saídas de 256 dimensões, supera todos os modelos maiores com saídas de 768 dimensões nos comparativos de mercado MTEB

Essas são apenas as primeiras melhorias na API Gemini e no Google AI Studio. Nas próximas semanas, vamos ter muitas outras novidades. Continuamos trabalhando para tornar o Google AI Studio e a API Gemini as formas mais fáceis de criar com o Gemini. Comece a usar o Google AI Studio hoje com o Gemini 1.5 Pro, confira exemplos de código e guias de início rápido no novo Cookbook da API Gemini e faça parte do canal da comunidade no Discord.