Apresentamos o PaliGemma 2: modelos avançados de visão-linguagem, ajuste simples

DEZ 05, 2024
Daniel Keysers Research Engineer
Andreas Steiner Staff Software Engineer

Criar uma IA personalizada e avançada que possa "ver" costumava ser uma tarefa complexa e que consumia muitos recursos. Isso não é mais verdade. Em maio passado, lançamos o PaliGemma, o primeiro modelo de visão-linguagem da família Gemma, dando um passo significativo para tornar a IA visual líder da classe mais acessível. Agora, temos o prazer de apresentar o PaliGemma 2, a próxima evolução em modelos de visão-linguagem ajustáveis.

O PaliGemma 2 baseia-se nos modelos Gemma 2 de alto desempenho, adicionando o poder da visão e tornando mais fácil do que nunca fazer ajustes para um desempenho excepcional. Com o PaliGemma 2, esses modelos podem ver, entender e interagir com informações visuais, ciando um mundo de novas possibilidades.


Novidades do PaliGemma 2

  • Desempenho escalonável: otimize o desempenho para qualquer tarefa com os vários tamanhos de modelo (parâmetros 3B, 10B, 28B) e resoluções (224 px, 448 px, 896 px) do PaliGemma 2.

  • Legendas longas: o PaliGemma 2 gera legendas detalhadas e contextualmente relevantes para imagens, indo além da simples identificação de objetos para descrever ações, emoções e a narrativa geral da cena.

  • Expansão para novos horizontes: nossas pesquisas demonstram um desempenho líder em reconhecimento de fórmulas químicas e partituras musicais, raciocínio espacial e geração de relatórios sobre raios X de tórax, conforme detalhado no relatório técnico.

A atualização para o PaliGemma 2 é muito fácil para os usuários existentes do PaliGemma. Ele foi projetado como um substituto direto, oferecendo uma variedade de tamanhos de modelo com ganhos imediatos de desempenho na maioria das tarefas sem grandes modificações de código. Além disso, sua flexibilidade facilita o ajuste para tarefas e conjuntos de dados específicos, permitindo que você adapte seus recursos a necessidades específicas.

Você pode saber mais sobre o funcionamento do PaliGemma 2, inclusive quando usar mais parâmetros e resoluções maiores, em nosso relatório técnico.


Extensão do sucesso do PaliGemma

Desde seu lançamento, a família Gemma cresceu rapidamente em um ecossistema vibrante, o Gemmaverso, com dezenas de milhares de modelos e aplicativos. Essa rápida expansão é um testemunho da engenhosidade dessa comunidade. As primeiras inovações usando o PaliGemma, como os avanços do ColPali na recuperação de documentos visuais, as técnicas de ajuste do RoboFlow e o progresso no rastreamento de objetos em tempo real, demonstram o potencial de expansão do Gemmaverso.


Comece a usar hoje

Deseja começar a explorar o potencial do PaliGemma 2? Veja como você pode fazer isso:

  • Faça o download de modelos e código: encontre os modelos pré-treinados e o código na Hugging Face e no Kaggle.


Mal podemos esperar para ver o que você vai criar com o PaliGemma 2. Participe da vibrante comunidade do Gemma, compartilhe seus projetos no Gemmaverso e continue explorando conosco o potencial ilimitado da IA. Seu feedback e suas contribuições são inestimáveis para moldar o futuro desses modelos e promover a inovação na área.