PaliGemma 2 출시: 강력한 비전-언어 모델, 간단한 미세 조정

12월 05, 2024
Daniel Keysers Research Engineer
Andreas Steiner Staff Software Engineer

'볼' 수 있는 맞춤형 고급 AI 개발은 복잡하고 자원 집약적인 작업이었지만, 더 이상은 그렇지 않습니다. 지난 5월에 저희는 Gemma 제품군에서 최초의 비전-언어 모델인 PaliGemma를 출시했습니다. 이는 동급 최고의 시각적 AI에 대한 접근성을 높이는 데 있어 중요한 진일보였습니다. 이번에는 조정 가능한 비전-언어 모델이 한 단계 더 발전한 차세대 모델인 PaliGemma 2를 출시하게 되어 매우 기쁩니다.

우수한 성능을 자랑하는 Gemma 2 모델을 기반으로 하는 PaliGemma 2는 비전의 힘을 한층 더 강화할 뿐만 아니라 탁월한 성능을 위한 미세 조정을 그 어느 때보다 쉽게 만들어 줍니다. 이러한 모델은 PaliGemma 2를 통해 시각적 입력 정보를 보고, 이해하고, 상호 작용함으로써 새로운 가능성의 세계를 열 수 있습니다.


PaliGemma 2의 새로운 기능은 무엇인가요?

  • 확장 가능한 성능: PaliGemma 2의 다양한 모델 크기(3B, 10B 또는 28B개의 매개변수)와 해상도(224px, 448px, 896px)로 모든 작업에 대한 성능을 최적화합니다.

  • 긴 캡션: PaliGemma 2는 단순한 객체 식별을 넘어 행동, 감정 및 장면의 전반적인 내러티브를 설명하는 이미지에 대한 상세하고 상황에 맞는 캡션을 생성합니다.

  • 새로운 지평으로의 확장: 저희가 수행한 연구에 따르면 화학식 인식, 악보 인식, 공간 추론, 흉부 X선 보고서 생성 작업에서 최고 수준의 성능을 보여줍니다. 이 내용은 기술 보고서에 상술되어 있습니다.

기존 PaliGemma 사용자는 PaliGemma 2로 매우 손쉽게 업그레이드할 수 있습니다. PaliGemma 2는 드롭인 교체를 할 수 있도록 설계되었으므로, 중대한 코드 수정 없이 대부분의 작업에서 즉각적인 성능 향상과 함께 다양한 크기의 모델을 제공합니다. 또한 유연성이 뛰어나 특정 작업 및 데이터 세트를 간단히 미세 조정함으로써 정확한 요구 사항에 맞게 기능을 맞춤 설정할 수 있습니다.

더 많은 매개변수와 더 큰 해상도를 사용하는 경우를 포함하여 PaliGemma 2의 작동 방식에 대한 자세한 내용은 기술 보고서에서 확인할 수 있습니다.


PaliGemma의 성공을 기반으로 한 발전

Gemma 제품군은 출시 이후 수만 가지 모델과 애플리케이션으로 구성된 활기찬 생태계인 Gemmaverse로 빠르게 성장했습니다. 이러한 급성장은 커뮤니티의 독창성을 잘 보여줍니다. 시각적 문서 검색 분야에서 ColPali의 발전, RoboFlow의 미세 조정 기법, 실시간 객체 추적 등 PaliGemma를 사용한 초기 혁신은 Gemmaverse의 확장 가능성을 보여줍니다.


지금 시작하세요

PaliGemma 2의 잠재력을 탐구할 준비가 되셨나요? 그 방법은 다음과 같습니다.

  • 모델 및 코드 다운로드: Hugging FaceKaggle에서 사전 학습된 모델과 코드를 찾으세요.


개발자 여러분이 PaliGemma 2로 만들어낼 결과물이 무척 기대됩니다. 활기찬 Gemma 커뮤니티에 가입하고, 프로젝트를 Gemmaverse에 공유하고, AI의 무한한 잠재력을 계속 탐구해 봅시다. 개발자 여러분의 의견과 참여는 이러한 모델의 미래를 만들고 이 분야의 혁신을 이끄는 데 매우 중요합니다.