Apresentando PaliGemma, Gemma 2 e um upgrade ára o toolkit de IA responsável

MAI 14, 2024
Tris Warkentin Director, Product Management
Xiaohua Zhai Senior Staff Research Scientist
Ludovic Peran Product Manager

Na Google, acreditamos no poder da colaboração e da pesquisa aberta para impulsionar a inovação, e ficamos gratos em ver que a Gemma sendo adotada pela comunidade, com milhões de downloads em poucos meses de lançamento.

Esta resposta entusiástica tem sido incrivelmente inspiradora, pois os desenvolvedores criaram uma série diversificada de projetos como o Navarasa, uma variante multi-idiomas para línguas índicas, ou o Octopus v2, um modelo de ação no dispositivo. Os desenvolvedores vem demonstrando o potencial do Gemma para a criação de soluções de IA acessíveis e de impacto.

Este espírito de exploração e criatividade também impulsionou nosso desenvolvimento do CodeGemma, com seu poderosos recursos de preenchimento e geração de códigos, e o RecurrentGemma, que oferece possibilidades de inferência e pesquisa com eficiência.

Link to Youtube Video (visible only when JS is disabled)

O Gemma é uma família de modelos abertos leves de última geração desenvolvida a partir da mesma pesquisa e tecnologia utilizadas para criar os modelos Gemini. Agora, estamos entusiasmados em expandir ainda mais a família Gemma com a introdução do PaliGemma, um poderoso modelo de visão-linguagem (VLM), e uma prévia do que virá em breve com o anúncio do Gemma 2. Além disso, estamos ampliando o nosso compromisso com IA responsável com atualizações no nosso toolkit de IA generativa responsável, proporcionando ferramentas novas e aprimoradas aos desenvolvedores para a avaliação da segurança de modelos e filtragem de conteúdo prejudicial.


Apresentando o PaliGemma: Modelo de visão-linguagem aberto

O PaliGemma é um poderoso VLM aberto inspirado no PaLI-3. Criado em componentes abertos como o modelo de visão SigLIP e o modelo de linguagem Gemma, o PaliGemma foi desenvolvido para ter o melhor desempenho de ajustes da categoria em uma séríe de tarefas de visão-linguagem. Isto inclui legendas para imagens e vídeos curtos, resposta visual a perguntas, compreensão de textos em imagens, além de detecção e segmentação de objetos.

Estamos disponibilizando checkpoints pré-treinados e ajustados em várias resoluções, bem como checkpoints ajustados especificamente para um misto de tarefas para exploração imediata.

A fim de facilitar a exploração e pesquisa aberta, o PaliGemma está disponível em várias plataformas e recursos. Comece a explorar hoje mesmo, com opções gratuitas como notebooks do Kaggle e do Colab. Pesquisadores acadêmicos que buscam ampliar as fronteiras da pesquisa visão-linguagem também podem solicitar créditos do Google Cloud para apoiar seu trabalho.

Comece já com o PaliGemma. Você pode encontrar o PaliGemma no GitHub, modelos do Hugging Face, Kaggle, Vertex AI Model Garden and ai.nvidia.com (acelerado com TensoRT-LLM) com integração simples através do JAX e Hugging Face Transformers. (A integração com o Keras estará disponível em breve) Você também pode interagir com o modelo através deste Space do Hugging Face.

Screenshot from the HuggingFace Space running PaliGemma showing an image of a cat wearing a tiny hat, with his head on stack of four pancakes
Captura de tela de um Space do Hugging Face executando o PaliGemma

Anunciando o Gemma 2: Desempenho e eficiência de próxima geração

Estamos entusiasmados em anunciar a chegada em breve do Gemma 2, a próxima geração de modelos do Gemma. O Gemma 2 estará disponível em novos tamanhos para uma ampla série de casos de uso de desenvolvedores de IA e conta com uma arquitetura totalmente nova, desenvolvida para proporcionar desempenho e eficiência revolucionários, oferecendo benefícios como:

  • Desempenho líder na categoria: Com 27 bilhões de parâmeteros, o Gemma 2 oferece um desempenho comparável ao Llama 3 70B com menos da metade do tamanho. Esta eficiência revolucionária estabelece um novo padrão no cenário de modelos abertos.

  • Custos de implantação reduzidos: O design eficiente do Gemma 2 permite que ela se encaixe em menos de metade da computação de modelos comparáveis. O modelo 27B é otimizado para execução nas GPUs da NVIDIA ou pode ser executado com eficiência em um único host TPU no Vertex AI, tornando a implantação mais acessível e econômica para uma variedade de usuários.

  • Cadeia de ferramentas de ajustes versátil: o Gemma 2 fornecerá aos desenvolvedores recursos de ajuste robustos em um ecossistema diversificado de plataformas e ferramentas. Desde soluções baseadas na nuvem como o Google Cloud a ferramentas populares da comunidade, como Axolotl, fazer ajuste fino no Gemma 2 será mais fácil do que nunca. Além disso, a integração perfeita de parceiros com o Hugging Face e o NVIDIA TensorRT-LLM, em conjunto com nossos próprios JAX e Keras, garante que você seja capaz de otimizar o desempenho e realizar uma implantação eficaz em várias configurações de hardware.
Gemma pre-trained model performance benchmarks
O Gemma 2 ainda está em pré-treinamento. Este gráfico mostra o desempenho do ponto de verificação mais recente do Gemma 2, junto com as métricas de referência de pré-treinamento. Fonte: Hugging Face Open LLM Leaderboard (22 de abril de 2024) e o blog de anúncio do Grok

Fique atento para o lançamento oficial do Gemma 2 nas próximas semanas!


Expandindo o toolkit de IA generativa responsável

Por este motivo, estamos expandindo o nosso Toolkit de IA generativa responsável para ajudar desenvolvedores a conduzir avaliações de modelos mais robustas, lançando o LLM Comparator em código aberto. O LLM Comparator é uma nova ferramenta interativa e visual para realizar avaliações lado a lado eficazes, a fim de analisar a qualidade e a segurança das respostas do modelo. Para ver o LLM Comparator em ação, explore nossa demonstração, que apresenta uma uma comparação entre o Gemma 1.1 e o Gemma 1.0.

screenshot showing a side by side evaluation in the LLM Comparator

Esperamos que esta ferramenta avance ainda mais a missão do toolkit de ajudar desenvolvedores a criar aplicativos de IA que não só sejam inovadores, mas também seguros e responsáveis.

Enquanto continuamos expandindo a família Gemma de modelos abertos, permanecemos dedicados à promoção de um ambiente colaborativo no qual a tecnologia de IA de ponta e o desenvolvimento responsável andam de mãos dadas. Estamos entusiasmados em ver o que vocês criam com essas novas ferramentas e como, juntos, podemos moldar o futuro da IA.