O próximo capítulo da era Gemini para desenvolvedores

DEZ 11, 2024
Shrestha Basu Mallick Group Product Manager Gemini API
Kathy Korevec Director of Product Google Labs

Estamos dando aos desenvolvedores o poder de construir o futuro da IA com modelos de ponta, ferramentas inteligentes para escrever código mais rapidamente e integração total entre plataformas e dispositivos. Desde dezembro passado, quando lançamos o Gemini 1.0, milhões de desenvolvedores já usaram o Google AI Studio e a Vertex AI para criar com o Gemini em 109 idiomas.

Hoje, estamos anunciando o Gemini 2.0 Flash Experimental para habilitar aplicativos ainda mais imersivos e interativos, bem como novos agentes de codificação que melhorarão os fluxos de trabalho, agindo em nome do desenvolvedor.


Crie com o Gemini 2.0 Flash

Em sequência ao sucesso do Gemini 1.5 Flash, o Flash 2.0 é duas vezes mais rápido que o 1.5 Pro e ainda alcança um desempenho mais sólido, inclui novas saídas multimodais e oferece o uso de ferramentas nativas. Também estamos introduzindo uma API Multimodal Live para criar aplicativos dinâmicos com streaming de áudio e vídeo em tempo real.

A partir de hoje, os desenvolvedores podem testar e explorar o Gemini 2.0 Flash por meio da API Gemini no Google AI Studio e na Vertex AI durante sua fase experimental, com disponibilidade geral no início do próximo ano.

Com o Gemini 2.0 Flash, os desenvolvedores têm acesso a:

1. Desempenho melhor

O Gemini 2.0 Flash é mais potente que o 1.5 Pro e, ao mesmo tempo, oferece a velocidade e eficiência que os desenvolvedores esperam do Flash. Ele também tem um melhor desempenho multimodal, de texto, código, vídeo, compreensão espacial e raciocínio nos principais comparativos de mercado. A compreensão espacial aprimorada permite a geração de caixas delimitadoras mais precisas em objetos pequenos em imagens desordenadas e melhor identificação de objetos e legendagem. Saiba mais no vídeo sobre compreensão espacial ou leia os documentos da API Gemini.

Link to Youtube Video (visible only when JS is disabled)

2. Novas modalidades de saída

Os desenvolvedores poderão usar o Gemini 2.0 Flash para gerar respostas integradas, que podem incluir texto, áudio e imagens, tudo por meio de uma única chamada de API. Essas novas modalidades de saída estão disponíveis para os testadores iniciais, com lançamento mais amplo esperado para o próximo ano. As marcas d'água invisíveis do SynthID serão ativadas em todas as saídas de imagem e áudio, ajudando a diminuir as preocupações com desinformação e atribuição incorreta.

  • Saída de áudio nativa multilíngue: o Gemini 2.0 Flash apresenta saída de áudio nativa com conversão de texto em voz que fornece aos desenvolvedores controle refinado não apenas sobre o que o modelo diz, mas também sobre como ele diz, com oito vozes de alta qualidade à escolha e uma variedade de idiomas e sotaques. Ouça a saída de áudio nativa em ação ou leia mais na documentação do desenvolvedor.

  • Saída de imagem nativa: o Gemini 2.0 Flash agora gera imagens nativamente e dá suporte à edição conversacional com várias voltas, para que você possa elaborar saídas anteriores e refiná-las. Ele pode gerar saída com texto e imagens intercalados, o que o torna útil em conteúdo multimodal, como receitas. Saiba mais no vídeo sobre saída de imagem nativa.

Link to Youtube Video (visible only when JS is disabled)

3. Uso de ferramentas nativas

O Gemini 2.0 foi treinado para usar ferramentas, uma capacidade fundamental para criar experiências de agente. Ele pode chamar nativamente ferramentas como a Pesquisa Google e a execução de código, além de funções personalizadas de terceiros por meio de chamadas de função. Usar a Pesquisa Google nativamente como uma ferramenta leva a respostas mais factuais e abrangentes e aumenta o tráfego para os editores. Várias pesquisas podem ser executadas em paralelo, levando a uma recuperação de informações aprimorada com a localização de fatos mais relevantes em várias fontes ao mesmo tempo e sua combinação para obter acurácia. Saiba mais no vídeo sobre o uso de ferramentas nativas ou comece a criar a partir de um notebook.

Link to Youtube Video (visible only when JS is disabled)

4. API Multimodal Live

Os desenvolvedores já podem criar aplicativos multimodais em tempo real com entradas de streaming de áudio e vídeo de câmeras ou telas. Padrões de conversação natural, como interrupções e detecção de atividade de voz, são suportados. A API dá suporte à integração de várias ferramentas para atender a casos de uso complexos com uma única chamada de API. Saiba mais no streaming de vídeo ao vivo multimodal e experimente o console da Web ou o código de início rápido (Python).

Link to Youtube Video (visible only when JS is disabled)

Estamos entusiasmados em ver as startups fazendo progressos impressionantes com o Gemini 2.0 Flash, prototipando novas experiências como o playground visual do tldraw, a criação de personagens virtuais e a narração de áudio do Viggle, a tradução contextual multilíngue do Toonsutra e a adição de áudio em tempo real do Rooms.

Para habilitar a criação, lançamos três experiências de app de início rápido no Google AI Studio, juntamente com o código aberto para compreensão espacial, análise de vídeo e análise detalhada do Google Maps, para que você possa começar a criar com o Gemini 2.0 Flash.


Viabilização da evolução da assistência de código de IA

À medida que a assistência de código de IA evolui rapidamente de pesquisas de código simples para assistentes habilitados por IA incorporados a fluxos de trabalho de desenvolvedores, queremos compartilhar o mais recente avanço que usará o Gemini 2.0: agentes de codificação que podem executar tarefas por você.

Em nossa mais recente pesquisa, conseguimos usar o Flash 2.0 equipado com ferramentas de execução de código para alcançar 51,8% no SWE-bench Verified, que testa o desempenho de agentes em tarefas de engenharia de software do mundo real. A velocidade de inferência de ponta do 2.0 Flash permitiu que o agente fizesse a amostragem de centenas de soluções potenciais, selecionando as melhores com base em testes de unidade existentes e no próprio julgamento do Gemini. Estamos no processo de transformar essa pesquisa em novos produtos para desenvolvedores.


Apresentamos o Jules, seu agente de código habilitado por IA

Imagine que sua equipe acabou de concluir um bug bash, e agora você está olhando para uma longa lista de bugs. A partir de hoje, você pode transferir tarefas de codificação em Python e Javascript para o Jules, um agente de código experimental habilitado por IA que usará o Gemini 2.0. Ao trabalhar de forma assíncrona e integrada com seu fluxo de trabalho do GitHub, o Jules lida com correções de bugs e outras tarefas demoradas enquanto você se concentra no que realmente deseja criar. O Jules cria planos abrangentes de várias etapas para resolver problemas, modifica vários arquivos com eficiência e até prepara solicitações de envio para colocar as correções diretamente no GitHub.

Ainda estamos começando, mas pela nossa experiência interna usando o Jules, ele está proporcionando aos desenvolvedores:

  • Mais produtividade. Atribua problemas e tarefas de codificação ao Jules para ter eficiência de codificação assíncrona.

  • Acompanhamento do progresso. Mantenha-se em dia e priorize tarefas que exigem a sua atenção com atualizações em tempo real.

  • Controle total do desenvolvedor. Revise os planos criados pelo Jules ao longo do caminho e forneça feedback ou solicite os ajustes que desejar. Revise com facilidade e, se apropriado, mescle o código escrito pelo Jules a seu projeto.

Estamos disponibilizando o Jules para um grupo seleto de trusted testers hoje e o disponibilizaremos para outros desenvolvedores interessados no início de 2025. Registre-se para receber atualizações sobre o Jules em labs.google.com/jules.


O agente de ciência de dados do Colab criará notebooks para você

No Google I/O deste ano, lançamos um agente de ciência de dados experimental no labs.google/code que permite que qualquer pessoa faça upload de um conjunto de dados e obtenha insights em poucos minutos, tudo embasado em um notebook do Colab ativo. Ficamos felizes por receber um feedback tão positivo da comunidade de desenvolvedores e ver o impacto. Por exemplo, com a ajuda do agente de ciência de dados, um cientista do Lawrence Berkeley National Laboratory que trabalha em um projeto global de emissões de metano em zonas úmidas tropicais estimou que sua análise e o tempo de processamento foram reduzidos de uma semana para cinco minutos.

O Colab começou a integrar esses mesmos recursos de agente usando o Gemini 2.0. Basta descrever suas metas de análise em linguagem simples e ver seu notebook tomar forma automaticamente, o que ajuda a acelerar a capacidade de conduzir pesquisas e análises de dados. Os desenvolvedores podem obter acesso antecipado a esse novo recurso participando do programa trusted tester antes do lançamento mais amplo para os usuários do Colab no primeiro semestre de 2025.

Os desenvolvedores estão construindo o futuro

Nossos modelos Gemini 2.0 podem capacitar você a criar apps de IA melhores com mais rapidez e facilidade, para que você possa se concentrar em ótimas experiências para os usuários. Traremos o Gemini 2.0 para nossas plataformas, como Android Studio, Chrome DevTools e Firebase, nos próximos meses. Os desenvolvedores podem se registrar para usar o Gemini 2.0 Flash no Gemini Code Assist, para obter recursos avançados de assistência de codificação em ambientes de desenvolvimento integrado populares, como Visual Studio Code, IntelliJ, PyCharm e muito mais. Visite ai.google.dev para dar os primeiros passos e siga o Google AI for Developers para obter atualizações futuras.