Gemma 모델은 첫 출시 이후로 1억 회 이상 다운로드되었으며, Gemma 커뮤니티는 모든 종류의 사용 사례에 대해 6만여 가지 변형을 생성했습니다. 이전 Gemma 버전의 성공을 바탕으로 개발된, Gemma 공개 모델 제품군에서 가장 뛰어난 기능을 자랑하고 발전된 버전인 Gemma 3를 소개하게 되어 기쁩니다. 저희는 커뮤니티의 다양한 의견을 적극 반영해 더 긴 컨텍스트와 멀티모달 등 가장 많이 요청된 기능을 추가했습니다!
Link to Youtube Video (visible only when JS is disabled)
Gemma 3는 멀티모달리티를 도입하여 비전 언어 입력과 텍스트 출력을 지원합니다. 최대 128k개 토큰의 컨텍스트 윈도우를 처리하고, 140여 가지 언어를 이해하며, 구조화된 출력 및 함수 호출을 포함하여 향상된 수학, 추론, 채팅 기능을 제공합니다. Gemma 3는 자체 사용 사례 및 도메인에 맞게 미세 조정할 수 있는 사전 학습된 모델과 지시문 최적화 범용 버전 둘 다로 제공되며 각각 4가지 크기(1B, 4B, 12B, 27B)로 이용 가능합니다.
Gemma의 사전 학습 및 사후 학습 프로세스는 증류, 강화 학습, 모델 병합을 조합해 최적화되었습니다. 이러한 접근 방식은 수학, 코딩, 지시문 준수 성능 향상이라는 결과로 이어졌습니다. Gemma 3는 140여 가지 언어에 대해 더 나은 다국어 지원을 위해 새로운 토크나이저를 사용합니다. 그리고 JAX Framework를 사용하여 Google TPU에서 1B에 대해서는 2T개, 4B는 4T개, 12B는 12T개, 27B는 14T개의 토큰으로 학습되었습니다.
학습 후 Gemma 3는 다음 4가지 구성요소를 사용합니다.
이러한 업데이트로 모델 수학, 코딩, 지시 준수 기능이 상당히 개선되어 LMArena에서 1,338점을 득점해 최고의 개방형 콤팩트 모델로 선정되었습니다.
Gemma 3의 지시 버전은 Gemma 2와 동일한 대화 형식을 사용하므로, 텍스트 전용 입력을 위해 최신 버전으로 업데이트하려고 도구 세트를 업데이트할 필요가 없습니다. 이미지 입력의 경우 Gemma 3에서는 텍스트가 인터리빙된 이미지를 지정할 수 있습니다.
<bos><start_of_turn>user
knock knock<end_of_turn>
<start_of_turn>model
who is there<end_of_turn>
<start_of_turn>user
Gemma<end_of_turn>
<start_of_turn>model
Gemma who?<end_of_turn>
인터리빙된 이미지 예시
<bos><start_of_turn>user
Image A: <start_of_image>
Image B: <start_of_image>
Label A: water lily
Label B:<end_of_turn>
<start_of_turn>model
Desert rote<end_of_turn>
Gemma 3에는 SigLIP 기반의 통합 비전 인코더가 있습니다. 학습 중에 고정된 Gemma 3 비전 모델은 서로 다른 크기(4B, 12B, 27B)에서 동일합니다. 덕분에 Gemma는 이미지와 동영상을 입력으로 사용하여 이미지를 분석하고, 이미지에 대한 질문에 답하고, 이미지를 비교하고, 객체를 식별하고, 심지어 이미지 내 텍스트에 대해 답할 수도 있습니다. 이 모델은 원래 896x896 픽셀의 이미지를 사용하도록 만들어졌지만, 새로운 적응형 윈도우 알고리즘을 사용하여 입력 이미지를 분할함으로써 Gemma 3가 고해상도 및 정사각형이 아닌 이미지를 사용할 수 있도록 합니다.
ShieldGemma 2는 Gemma 3를 기반으로 개발된 4B 이미지 안전성 분류기입니다. 주요 안전성 범주 전반에 걸쳐 라벨을 출력하여 (이미지 생성 모델에서 얻은) 합성 이미지와 (Gemma 3 같은 비전 언어 모델의 입력 필터가 될 수 있는) 자연 이미지의 유해성을 평가하여 안전성을 조정할 수 있도록 합니다. ShieldGemma 2에 대해 자세히 알아보세요.
Gemma 커뮤니티의 독창성과 Gemmaverse의 폭발적인 성장은 놀라움의 연속이었습니다. 새로운 미세 조정 기법(예: 참조 모델 없이 인간의 선호 사항에 맞게 직접 최적화하도록 Princeton NLP에서 개발한 SimPO 방법, 불가리아어를 위해 최첨단 LLM을 학습시키는 INSAIT)을 개척하는 연구소부터 Nexa AI가 OmniAudio를 활용한 것처럼 완전히 새로운 모달리티에 대해 Gemma를 학습시키는 개발자까지, 정말 놀랍습니다. 다음에는 어떤 획기적인 성과를 보여줄지 기대됩니다.
오늘 바로 Gemma 3의 잠재력을 탐색할 준비가 되셨나요? 방법은 다음과 같습니다.