No ano passado, lançamos o ShieldGemma, um pacote de modelos de classificador de conteúdo de segurança baseado no Gemma 2, projetado para detectar conteúdo prejudicial em entradas e saídas de texto de modelos de IA. Com a estreia do Gemma 3, hoje, estamos expandindo nossa base de IA responsável com o anúncio do ShieldGemma 2.
Link to Youtube Video (visible only when JS is disabled)
O ShieldGemma 2, baseado no Gemma 3, é um modelo com quatro bilhões de parâmetros (4B) que verifica a segurança de imagens sintéticas e naturais em relação às principais categorias para ajudar a criar conjuntos de dados e modelos robustos. Com essa adição à família de modelos Gemma, pesquisadores e desenvolvedores agora podem facilmente minimizar o risco de conteúdo prejudicial em modelos em áreas-chave de danos:
Recomendamos o uso do ShieldGemma 2 como filtro de entrada para modelos de visão-linguagem ou como filtro de saída de sistemas de geração de imagens. O ShieldGemma pode ser usado em imagens sintéticas e naturais.
Ir além do texto, do treinamento e da compreensão da segurança de imagens em modelos multimodais traz novos desafios, e é por isso que o ShieldGemma 2 foi criado para responder a uma ampla gama de estilos de imagens diversificados e com nuances.
Para treinar um modelo robusto de segurança de imagens, selecionamos conjuntos de dados de treinamento com imagens naturais e sintéticas e ajustamos o Gemma 3 para demonstrar um desempenho sólido. Comparamos as políticas de segurança com os seguintes comparativos de mercado e divulgaremos um relatório técnico que também incorpora comparativos de mercado de terceiros.
A implantação responsável de modelos abertos depende de um esforço de toda a comunidade, e estamos ansiosos para explorar como o ShieldGemma 2 poderá ser entregue em tamanhos menores, em mais áreas de danos e alinhado à taxonomia multimodal do ML Commons em um futuro próximo.
Estamos motivados a continuar criando uma IA multimodal segura e responsável!
Wenjun Zeng, Ryan Mullins, Dana Kurniawan, Yuchi Liu, Mani Malek, Yiwen Song, Dirichi Ike-Njoku, Hamid Palangi, Jindong Gu, Shravan Dheep, Karthik Narashimhan, Tamoghna Saha, Joon Baek, Rick Pereira, Cai Xu, Jingjing Zhou, Aparna Joshi, Will Hawkins