Introdução do PaliGemma 2 mix: um modelo de visão-linguagem para várias tarefas

FEV 19, 2025
Omar Sanseviero Staff Developer Relations Engineer
Andreas Steiner Staff Software Engineer

Em dezembro passado, lançamos o PaliGemma 2, um modelo de visão-linguagem atualizado da família Gemma. O lançamento incluiu pontos de verificação pré-treinados de diferentes tamanhos (parâmetros 3B, 10B e 28B) que podem ser facilmente ajustados em uma ampla variedade de tarefas e domínios de visão-linguagem, como segmentação de imagens, legendagem de vídeos curtos, respostas a perguntas científicas e tarefas relacionadas a texto com alto desempenho.

Agora, temos o prazer de anunciar o lançamento dos pontos de verificação do PaliGemma 2 mix. Os modelos PaliGemma 2 mix são ajustados para uma variedade de tarefas que permitem explorar diretamente os recursos de modelos e utilizá-los imediatamente em casos de uso comuns.


Novidades do PaliGemma 2 mix

  • Várias tarefas com um modelo: o PaliGemma 2 mix pode resolver tarefas como criação de legendas curtas e longas, reconhecimento óptico de caracteres (OCR, na sigla em inglês), resposta a perguntas sobre imagens, detecção de objetos e segmentação.

  • Tamanhos otimizados para desenvolvedores: use o modelo mais apropriado às suas necessidades, graças aos diferentes tamanhos de modelo (parâmetros 3B, 10B e 28B) e resoluções (224 px e 448 px).

Se você já estava usando os pontos de verificação do PaliGemma mix originais, poderá fazer upgrade diretamente para o PaliGemma 2 sem precisar fazer nenhuma alteração. O modelo executa tarefas diferentes, dependendo da forma como o prompt é elaborado. Você pode verificar a sintaxe diferenciada de tarefas de prompt na documentação oficial e saber mais sobre como o PaliGemma 2 foi desenvolvido em nosso relatório técnico.


Detecção

  • Tarefa: detecção (PaliGemma-2-3b-mix-224)
  • Entrada: "detect android\n" (detectar android)
Input - "detect android\n"

Resultado:

Result in PaliGemma 2 Mix: A large, green Android figure stands on a white platform, enclosed by a red box. The word "android" is written in red above the figure.

Detecção de vários objetos

  • Tarefa: detecção de vários objetos (PaliGemma-2-3b-mix-224)
  • Entrada: "detect chair ; table\n" (detectar cadeira; mesa)
Multiple object detection of items in a dining room

Resultado:

A wooden table and chair are in the foreground. Additional tables and chairs can be seen in the background within a room with a bee patterned wall and wooden floors. Labeled boxes highlight the furniture with the text "table" and "chair."
  • Tarefa: detecção de vários objetos (PaliGemma-2-3b-mix-224)
  • Entrada - "detect food ; plate ; bowl\n" (detectar alimento; prato; tigela)
Plates and bowls of food on a wooden table

Resultado:

Plates and bowls of food on a wooden table labeled with boxes that accurately identify "plate", "bowl" and "food"

Reconhecimento óptico de caracteres (OCR)

  • Tarefa: detecção de vários objetos (PaliGemma-2-3b-mix-224)
  • Entrada - "ocr\n"
Lighting labels in Japanese kanji

Resultado:

Japanese Kanji reads: Downlight, Dining Room, Kitchen, Living Room, Bathroom/Dressing Room]

Segmentação

  • Tarefa: segmentação (PaliGemma-2-3b-mix-224) [Imagem gerada pelo ImageFX]
  • Entrada - "segment cat\n" (segmentar gato)
Image of a cat looking at the camera behind a wooden sign that reads 'Hello PaliGemma 2' generated by ImageFX

Resultado:

highlighted image of a cat looking at the camera behind a wooden sign that reads 'Hello PaliGemma 2' generated by ImageFX

Respostas a perguntas

  • Tarefa: respostas a perguntas (PaliGemma2-mix-3b-448) [Imagem gerada pelo ImageFX]
  • Entrada: "answer en where is the cow standing?\n" (resposta em inglês para: onde está a vaca?)
A cow standing on the beach next to a yellow sign that reads 'Warning Dangerous Rip Current' with an illustration of a large wave breaking.

Resultado: beach (praia)


Legendagem

  • Entrada: "caption en\n" (legendar em inglês)
A cow standing on the beach next to a yellow sign that reads 'Warning Dangerous Rip Current' with an illustration of a large wave breaking.

Resultado: a cow standing on a beach next to a sign that says warning dangerous rip current. (uma vaca em uma praia perto de uma placa com um aviso de correnteza perigosa)


Reconhecimento óptico de caracteres (OCR)

A cow standing on the beach next to a yellow sign that reads 'Warning Dangerous Rip Current' with an illustration of a large wave breaking.

Resultado:

WARNING

DANGEROUS

RIP CURRENT


Detecção

  • Entrada: "detect cow\n" (detectar vaca)
A cow standing on the beach next to a yellow sign that reads 'Warning Dangerous Rip Current' with an illustration of a large wave breaking.

Resultado:

A cow standing on the beach next to a yellow sign that reads 'Warning Dangerous Rip Current' with an illustration of a large wave breaking. A red box outlines the cow, with a label that reads "cow"

Segmentação

  • Entrada: "segment cow\n" (segmentar vaca)
A cow standing on the beach next to a yellow sign that reads 'Warning Dangerous Rip Current' with an illustration of a large wave breaking.

Resultado:

A highlighted cow standing on the beach next to a yellow sign that reads 'Warning Dangerous Rip Current' with an illustration of a large wave breaking.

Legendagem

  • Tarefa: legendagem (PaliGemma 2-mix-10b-448)
  • Entrada: "caption en\n" (legendar em inglês)
A cow standing on the beach next to a yellow sign that reads 'Warning Dangerous Rip Current' with an illustration of a large wave breaking.

Resultado: A cow standing on a beach next to a warning sign. (uma vaca em uma praia perto de uma placa de aviso)

Reconhecimento óptico de caracteres (OCR)

  • Tarefa: "ocr\n"
A cow standing on the beach next to a yellow sign that reads 'Warning Dangerous Rip Current' with an illustration of a large wave breaking.

Resultado:

WARNING DANGEROUS

RIP CURRENT


Comece a usar hoje mesmo

Tudo pronto para descobrir o potencial do PaliGemma 2? Veja como você pode explorar os recursos do modelo mix:

  • Faça o download dos modelos: acesse os pesos dos modelos mix no Kaggle e na Hugging Face.

  • Aprenda a executar o modelo: experimente o notebook de inferência do Keras diretamente no Google Colab ou localmente.

  • Implante e ajuste com alguns cliques: use o PaliGemma 2 mix diretamente no Vertex Model Garden.


Embora o PaliGemma 2 mix apresente alto desempenho em várias tarefas, você obterá os melhores resultados ajustando o PaliGemma 2 em sua própria tarefa ou seu próprio domínio. Para saber como fazer isso, explore nossa documentação abrangente, confira nossos notebooks de exemplo oficiais para Keras e JAX ou use o exemplo do Hugging Face Transformers. Mal podemos esperar para ver o que você vai criar!