더 안전한 멀티모달 AI: Gemma를 통해 구현되는 책임감 있는 AI

3월 12, 2025
Dana Kurniawan Product Manager
Wenjun Zeng Software Engineer
Ryan Mullins Software Engineer

작년에 저희는 Gemma 2를 기반으로 개발되고 AI 모델의 텍스트 입력 및 출력에서 유해 콘텐츠를 감지하도록 설계된 안전 콘텐츠 분류기 모델 제품군인 ShieldGemma를 출시했습니다. 오늘 Gemma 3를 선보이는 자리에서 ShieldGemma 2를 발표함으로써 책임감 있는 AI의 기반을 구축하게 되어 기쁩니다.

Link to Youtube Video (visible only when JS is disabled)

Gemma 3를 기반으로 개발된 ShieldGemma 2는 매개변수 40억(4B) 개 규모의 모델로, 주요 카테고리에 대해 합성 및 자연 이미지의 안전성을 검사하여 강력한 데이터 세트와 모델을 개발하는 데 도움을 줍니다. Gemma 모델 제품군에 이 모델이 추가됨에 따라 연구자와 개발자는 이제 주요 유해 영역에서 모델의 유해 콘텐츠 위험을 쉽게 최소화할 수 있습니다.

  • 노골적인 성적 콘텐츠

  • 위험한 콘텐츠

  • 폭력
Use ShieldGemma as an input filter to any vision language model, or an an output filter of image generation models

ShieldGemma 2를 비전 언어 모델에 대한 입력 필터나 이미지 생성 시스템의 출력 필터로 사용하는 것이 좋습니다. ShieldGemma는 합성 이미지와 자연 이미지에 모두 사용할 수 있습니다.


ShieldGemma 2의 차이점은 무엇일까요?

멀티모달 모델에서 텍스트를 넘어 이미지 안전성을 학습시키고 이해하는 것은 새로운 도전 과제입니다. 바로 이러한 이유로 매우 다양하면서도 미묘한 차이가 있는 이미지의 스타일에 대응할 수 있도록 ShieldGemma 2를 개발했습니다.

강력한 이미지 안전성 모델을 학습시키고자 자연 이미지와 합성 이미지의 학습 데이터 세트를 선별하고 지시문을 기반으로 Gemma 3를 조정해서 훌륭한 성능을 입증했습니다. 아래의 벤치마크와 안전 정책을 비교했으며, 타사 벤치마크도 포함된 기술 보고서를 발표할 예정입니다.

ShieldGemma 2 performance
내부 벤치마크에서 최적의 F1 점수(%, 높을수록 좋음)를 기반으로 한 평가 결과

다음은 ShieldGemma가 보다 안전한 AI 이미지 애플리케이션 개발에 어떻게 도움이 되는지에 대한 설명입니다.

  • 유연성: 합성 또는 자연 이미지를 업로드하고 필요에 따라 프롬프트 템플릿을 편집합니다. Google Colab 또는 자체 GPU에서 세부 조정합니다.

  • 다기능성: Gemma 3를 지원하는 모든 도구는 Transformer, JAX, Keras, Ollama 등 인기 프레임워크를 포함하여 ShieldGemma 2를 지원합니다.

  • 협업: ShieldGemma는 본질적으로 개방형이므로 참가자 모두가 집단적으로 업계 안전 기준을 지속적으로 높여가면서 커뮤니티 공동작업자들이 계속해서 포용적인 개발을 할 수 있는 환경을 조성합니다.

개방형 모델의 책임감 있는 배포를 위해서는 전체 커뮤니티의 노력이 필요합니다. 저희는 가까운 미래에 ShieldGemma 2가 더 작은 규모로 더 많은 유해 영역에 적용되고 멀티모달 ML Commons 분류 체계에 맞게 조정될 수 있는 방법을 모색할 수 있길 바랍니다.

계속해서 안전하고 책임감 있는 멀티모달 AI 개발을 할 수 있어 기쁩니다!


지금 시작하세요

  • 개발자 사이트에서 ShieldGemma 2를 살펴보고 자세한 내용은 모델 카드를 확인해 보세요.

  • Google AI Studio, Hugging Face, Ollama 및 기타 플랫폼에서 ShieldGemma 2를 사용해 보세요.


애써주신 팀원

Wenjun Zeng, Ryan Mullins, Dana Kurniawan, Yuchi Liu, Mani Malek, Yiwen Song, Dirichi Ike-Njoku, Hamid Palangi, Jindong Gu, Shravan Dheep, Karthik Narashimhan, Tamoghna Saha, Joon Baek, Rick Pereira, Cai Xu, Jingjing Zhou, Aparna Joshi, Will Hawkins