PaliGemma 2 mix 소개: 여러 작업을 위한 비전 언어 모델

2월 19, 2025
Omar Sanseviero Staff Developer Relations Engineer
Andreas Steiner Staff Software Engineer

지난 12월, Gemma 제품군에서 업그레이드된 비전 언어 모델 PaliGemma 2가 출시되었습니다. 이 릴리스에는 이미지 세분화, 짧은 동영상 캡션, 과학적 질문 답변, 고성능 텍스트 관련 작업처럼 광범위한 비전 언어 작업과 도메인에서 쉽게 미세 조정할 수 있는 다양한 크기(30억, 100억, 280억 개 매개변수)의 사전 학습된 체크포인트가 포함되었습니다.

PaliGemma 2 mix 체크포인트를 선보이게 되어 기쁩니다. PaliGemma 2 mix는 모델 기능을 직접 탐색하도록 하고 일반적인 사용 사례에서 사용할 수 있는 다양한 작업에 맞게 조정된 모델입니다.


PaliGemma 2 mix의 새로운 기능은 무엇인가요?

  • 하나의 모델로 여러 작업 수행: PaliGemma 2 mix는 짧고 긴 캡션, 광학 문자 인식(OCR), 이미지 질문 답변, 객체 감지, 세분화 등의 작업을 해결할 수 있습니다.

  • 개발자 친화적인 크기: 다양한 모델 크기(30억, 100억, 280억 개 매개변수)와 해상도(224px 및 448px) 덕분에 사용자의 요구에 가장 적합한 모델을 사용할 수 있습니다.

원래 PaliGemma mix 체크포인트를 이미 사용하고 있었다면 따로 변경할 필요 없이 PaliGemma 2로 직접 업그레이드할 수 있습니다. 모델은 프롬프트 방식에 따라 다른 작업을 수행합니다. 공식 설명서에서 다른 프롬프트 작업 구문을 검토하고 기술 보고서에서 PaliGemma 2가 어떻게 개발되었는지 자세히 알아볼 수 있습니다.


감지

  • 작업: 감지(PaliGemma-2-3b-mix-224)
  • 입력: "detect android\n"
Input - "detect android\n"

결과:

Result in PaliGemma 2 Mix: A large, green Android figure stands on a white platform, enclosed by a red box. The word "android" is written in red above the figure.

다중 객체 감지

  • 작업: 다중 객체 감지(PaliGemma-2-3b-mix-224)
  • 입력: “detect chair ; table\n”
Multiple object detection of items in a dining room

결과:

A wooden table and chair are in the foreground. Additional tables and chairs can be seen in the background within a room with a bee patterned wall and wooden floors. Labeled boxes highlight the furniture with the text "table" and "chair."
  • 작업: 다중 객체 감지(PaliGemma-2-3b-mix-224)
  • 입력 - "detect food ; plate ; bowl\n"
Plates and bowls of food on a wooden table

결과:

Plates and bowls of food on a wooden table labeled with boxes that accurately identify "plate", "bowl" and "food"

광학 문자 인식(OCR)

  • 작업: 다중 객체 감지(PaliGemma-2-3b-mix-224)
  • 입력 - "ocr\n"
Lighting labels in Japanese kanji

결과:

Japanese Kanji reads: Downlight, Dining Room, Kitchen, Living Room, Bathroom/Dressing Room]

세분화

  • 작업: 세분화(PaliGemma-2-3b-mix-224) [ImageFX에서 생성한 이미지]
  • 입력 - "segment cat\n"
Image of a cat looking at the camera behind a wooden sign that reads 'Hello PaliGemma 2' generated by ImageFX

결과:

highlighted image of a cat looking at the camera behind a wooden sign that reads 'Hello PaliGemma 2' generated by ImageFX

질문 답변

  • 작업: 질문 답변(PaliGemma2-mix-3b-448) [ImageFX에서 생성한 이미지]
  • 입력: “answer en where is the cow standing?\n"
A cow standing on the beach next to a yellow sign that reads 'Warning Dangerous Rip Current' with an illustration of a large wave breaking.

결과: beach


캡션

  • 입력: “caption en\n”
A cow standing on the beach next to a yellow sign that reads 'Warning Dangerous Rip Current' with an illustration of a large wave breaking.

결과: a cow standing on a beach next to a sign that says warning dangerous rip current.


광학 문자 인식(OCR)

A cow standing on the beach next to a yellow sign that reads 'Warning Dangerous Rip Current' with an illustration of a large wave breaking.

결과:

WARNING

DANGEROUS

RIP CURRENT


감지

  • 입력: “detect cow\n”
A cow standing on the beach next to a yellow sign that reads 'Warning Dangerous Rip Current' with an illustration of a large wave breaking.

결과:

A cow standing on the beach next to a yellow sign that reads 'Warning Dangerous Rip Current' with an illustration of a large wave breaking. A red box outlines the cow, with a label that reads "cow"

세분화

  • 입력: “segment cow\n”
A cow standing on the beach next to a yellow sign that reads 'Warning Dangerous Rip Current' with an illustration of a large wave breaking.

결과:

A highlighted cow standing on the beach next to a yellow sign that reads 'Warning Dangerous Rip Current' with an illustration of a large wave breaking.

캡션

  • 작업: 캡션(PaliGemma 2-mix-10b-448)
  • 입력: “caption en\n”
A cow standing on the beach next to a yellow sign that reads 'Warning Dangerous Rip Current' with an illustration of a large wave breaking.

결과: A cow standing on a beach next to a warning sign.

광학 문자 인식(OCR)

  • 작업: "ocr\ n"
A cow standing on the beach next to a yellow sign that reads 'Warning Dangerous Rip Current' with an illustration of a large wave breaking.

결과:

WARNING DANGEROUS

RIP CURRENT


지금 시작하세요

PaliGemma 2의 잠재력을 발견할 준비가 되셨나요? 다음은 mix 모델 기능을 탐색하는 방법입니다.

  • 클릭 몇 번으로 mix 모델을 사용해 보기: Hugging Face 데모에서 직접 mix 모델 기능을 살펴보세요.

  • 모델 다운로드: KaggleHugging Face에서 mix 모델 가중치에 액세스하세요.

  • 모델 실행 방법 알아보기: Google Colab 또는 로컬에서 직접 Keras 추론 노트북을 사용하세요.

  • 클릭 몇 번으로 배포 및 조정: Vertex Model Garden에서 직접 PaliGemma 2 mix를 사용하세요.


PaliGemma 2 mix는 여러 작업에서 강력한 성능을 발휘하지만, 자신의 작업 또는 도메인에서 PaliGemma 2를 미세 조정하면 최상의 결과를 얻을 수 있습니다. 이를 수행하는 방법을 알아보려면 종합 설명서를 살펴보거나 Keras 및 JAX의 공식 예제 노트북을 확인하거나 Hugging Face 트랜스포머 예제를 사용하세요. 여러분이 이를 활용해 무엇을 만드실지 정말 기대됩니다!