PaliGemma, Gemma 2 및 업그레이드된 책임감 있는 AI 툴킷 출시

5월 14, 2024

Tris Warkentin Director, Product Management

Xiaohua Zhai Senior Staff Research Scientist

Ludovic Peran Product Manager

Google은 혁신을 주도하는 협업과 공개적 연구의 힘을 믿으며, Gemma를 출시한 지 단 몇 달 만에 커뮤니티에서 수백만 회의 다운로드를 하며 전폭적으로 수용하는 모습을 보며 매우 감사한 마음입니다.

이처럼 열정적인 반응은 매우 고무적이었습니다. 개발자들은 기기 내 작업 모델인 Octopus v2에 맞춰 인도 언어를 위한 다국어 대안인 Navarasa와 같은 다양한 프로젝트를 만들어 영향력 있고 접근하기 쉬운 AI 솔루션을 만드는 Gemma의 잠재력을 보여주고 있습니다.

또한 이러한 탐구와 창의성의 정신은 강력한 코드 완성 및 생성 기능을 갖춘 CodeGemma와 효율적인 추론 및 연구 가능성을 제시하는 RecurrentGemma의 개발에 활력을 불어넣기도 했습니다.

Link to Youtube Video (visible only when JS is disabled)

Gemma는 Gemini 모델을 만드는 데 사용된 것과 동일한 연구 결과와 기술로 개발된 경량의 최첨단 개방형 모델 제품군입니다. 오늘은 강력한 개방형 비전 언어 모델(VLM)인 PaliGemma를 출시하고 Gemma 2 발표와 함께 가까운 미래에 일어날 변화를 살짝 엿보면서 Gemini 제품군을 더욱 확장하게 되었다는 소식을 알려 드립니다. 또한 Responsible Generative AI 툴킷의 업데이트로 책임감 있는 AI에 대한 노력을 더욱 강화하여 개발자에게 모델 안전 평가 및 유해 콘텐츠 필터링을 위한 새로운 도구와 향상된 도구를 제공해 드립니다.

개방형 비전 언어 모델 PaliGemma 출시

PaliGemma는 PaLI-3에서 영감을 받아 개발한 강력한 개방형 VLM입니다. SigLIP 비전 모델과 Gemma 언어 모델을 포함한 개방형 구성 요소를 기반으로 개발된 PaliGemma는 광범위한 비전 언어 작업에서 동급 최고의 미세 조정 성능을 제공하려고 설계한 VLM입니다. PaliGemma에는 이미지와 짧은 동영상 캡션, 시각적 질문 답변, 이미지 내 텍스트 이해, 객체 감지, 객체 분할 기능이 포함됩니다.

여러 해상도에서 사전 학습된 체크포인트와 미세 조정된 체크포인트를 모두 제공할 뿐 아니라, 즉각적인 탐색 분석을 위해 여러 작업이 혼합된 상황에 맞게 특별히 조정된 체크포인트도 제공합니다.

개방적인 탐구와 연구를 촉진하기 위해 다양한 플랫폼과 리소스를 통해 PaliGemma를 제공합니다. 지금 바로 Kaggle 및 Colab 노트북과 같은 무료 옵션으로 탐구에 나서 보세요. 비전 언어 연구의 한계를 뛰어넘으려는 학술 연구자는 연구를 뒷받침할 수 있도록 Google Cloud 크레딧을 신청할 수도 있습니다.

지금 바로 PaliGemma를 시작해 보세요. JAX와 Hugging Face Transformers를 통한 손쉬운 통합으로 GitHub, Hugging Face 모델, Kaggle, Vertex AI Model Garden, ai.nvidia.com(TensoRT-LLM으로 가속화)에서 PaliGemma를 찾을 수 있습니다. (Keras 통합 출시 예정) 이 Hugging Face Space를 통해 모델과 상호 작용할 수도 있습니다.

Screenshot from the HuggingFace Space running PaliGemma showing an image of a cat wearing a tiny hat, with his head on stack of four pancakes

PaliGemma를 실행하는 HuggingFace Space의 스크린샷

Gemma 2 발표: 차세대 성능 및 효율성

차세대 Gemma 모델인 Gemma 2가 곧 출시된다는 소식을 전해드리게 되어 무척 설렙니다. Gemma 2는 광범위한 AI 개발자 사용 사례에 적합하게 새로운 크기로 제공될 예정이며 획기적인 성능과 효율성을 위해 설계된 새로운 아키텍처가 특징으로, 다음과 같은 혜택을 제공합니다.

동급 최고의 성능: Gemma 2는 270억 개의 매개변수에서 Llama 3 70B에 필적하는 성능을 절반 미만의 크기로 제공합니다. 이처럼 획기적인 효율성은 개방형 모델 환경에서 새로운 기준을 설정합니다.

배포 비용 절감: Gemma 2의 효율적인 설계를 통해 동급 모델 컴퓨팅 사용량의 절반 이하에 맞춰 제공할 수 있습니다. 27B 모델은 NVIDIA의 GPU에서 실행되도록 최적화되어 있거나 Vertex AI의 단일 TPU 호스트에서 효율적으로 실행할 수 있으므로 더욱 광범위한 사용자가 보다 쉽게 접근하고 비용 효율적으로 배포할 수 있습니다.

다용도 조정 도구 모음: Gemma 2는 다양한 플랫폼 및 도구 생태계에서 개발자에게 강력한 조정 기능을 제공할 것입니다. Google Cloud와 같은 클라우드 기반 솔루션에서 Axolotl 등 인기 있는 커뮤니티 도구까지, Gemma 2의 미세 조정 기능은 그 어느 때보다 쉽게 사용할 수 있을 것입니다. 또한 Hugging Face 및 NVIDIA TensorRT-LLM과 Google의 자체 JAX 및 Keras와의 원활한 파트너 통합으로 성능을 최적화하고 다양한 하드웨어 구성에 걸쳐 효율적으로 배포할 수 있습니다.

Gemma pre-trained model performance benchmarks

Gemma 2는 여전히 사전 학습 중입니다. 이 차트는 벤치마크 사전 학습 측정항목과 함께 최신 Gemma 2 체크포인트의 성능을 보여줍니다. 출처: Hugging Face Open LLM 리더보드(2024년 4월 22일) 및 Grok 발표 블로그

앞으로 몇 주 안에 Gemma 2가 공식 출시될 예정이니 기대해주세요!

Responsible Generative AI 툴킷 확장

이러한 이유로 LLM Comparator를 오픈소스로 출시하여 개발자가 보다 강력한 모델 평가를 수행할 수 있도록 Responsible Generative AI 툴킷을 확장하고 있습니다. LLM Comparator는 모델 응답의 품질과 안전성을 평가하기 위해 효과적인 병렬 평가를 수행하는 새로운 대화형 및 시각적 도구입니다. LLM Comparator가 작동하는 모습을 보려면 Gemma 1.1과 Gemma 1.0 간에 비교한 결과를 보여주는 데모를 살펴보세요.

screenshot showing a side by side evaluation in the LLM Comparator

이 도구가 개발자가 혁신적일 뿐 아니라 안전하고 책임감 있는 AI 애플리케이션을 만드는 데 도움이 되겠다는 이 툴킷의 임무를 더욱 발전시킬 수 있기를 바랍니다.

저희는 개방형 모델로 구성된 Gemma 제품군을 계속 확장하면서 최첨단 AI 기술과 책임감 있는 개발이 함께 이루어지는 협업 환경 육성에 계속 전념하고 있습니다. 개발자 여러분이 이러한 새로운 도구로 개발하는 결과물과 우리가 어떻게 AI의 미래를 함께 만들어갈 수 있을지 꼭 지켜보고 싶습니다.

게시 위치: