Expansão da família Gemma com modelos feitos sob medida para desenvolvedores e pesquisadores

ABR 12, 2024
Tris Warkentin Director, Product Management
Jane Fine Senior Product Manager

Em fevereiro, anunciamos o Gemma, nossa família de modelos abertos leves e de última geração, criados a partir da mesma pesquisa e tecnologia usadas para criar os modelos Gemini. A incrível resposta da comunidade, incluindo impressionantes variantes ajustadas, notebooks do Kaggle, integração com ferramentas e serviços, receitas para RAG usando bancos de dados como o MongoDB e muito mais, tem sido verdadeiramente inspiradora.

Hoje, temos o prazer de anunciar nossa primeira rodada de adições à família Gemma, que expande as possibilidades para os desenvolvedores de ML inovarem de forma responsável: o CodeGemma, para tarefas de sugestão e geração de código, além de acompanhamento de instruções, e o RecurrentGemma, uma arquitetura otimizada para eficiência para experimentação de pesquisas. Além disso, estamos compartilhando algumas atualizações do Gemma e de nossos termos, que visam melhorias com base no feedback inestimável que recebemos da comunidade e de nossos parceiros.


Apresentamos as duas primeiras variantes do Gemma

CodeGemma: sugestão e geração de código e chat para desenvolvedores e empresas

Com o aproveitamento da base de nossos modelos Gemma, o CodeGemma traz recursos de codificação poderosos, porém leves, para a comunidade. Os modelos CodeGemma estão disponíveis como uma variante 7B pré-treinada e especializada em tarefas de sugestão e geração de código, uma variante 7B ajustada por instrução para chats de código e acompanhamento de instruções e uma variante 2B pré-treinada para sugestões rápidas de código adaptada para computadores locais. Os modelos CodeGemma têm várias vantagens:

  • Sugestão e geração inteligentes de código: tenha sugestões para linhas e funções e até mesmo para gerar blocos inteiros de código, esteja você trabalhando localmente ou aproveitando os recursos de nuvem. 

  • Precisão aprimorada: treinado com 500 bilhões de tokens de dados principalmente em inglês de documentos da Web, matemática e código, os modelos CodeGemma geram códigos que não são apenas mais sintaticamente corretos, mas também semanticamente significativos, o que ajuda a reduzir os erros e o tempo de depuração. 

  • Proficiência em várias linguagens: um valioso assistente de codificação para Python, JavaScript, Java e outras linguagens populares. 

  • Fluxos de trabalho otimizados: integre um modelo CodeGemma a seu ambiente de desenvolvimento para escrever menos código boilerplate e se concentrar nos códigos interessantes e diferenciados que realmente importam, tudo com mais rapidez.
CodeGemma integrated within an existing AI dev project with
Esta tabela compara o desempenho do CodeGemma com o de outros modelos semelhantes em tarefas de sugestão de código com uma e com várias linhas.

Saiba mais sobre o CodeGemma em nosso relatório ou experimente-o neste guia de início rápido.


RecurrentGemma: inferência eficiente e acelerada em lotes maiores para pesquisadores

O RecurrentGemma é um modelo tecnicamente diferenciado que aproveita as redes neurais recorrentes e a atenção local para melhorar a eficiência da memória. Embora tenha um desempenho de pontuação de comparativo de mercado semelhante ao do modelo Gemma 2B, a arquitetura exclusiva do RecurrentGemma oferece várias vantagens:

  • Uso reduzido da memória: os requisitos de memória reduzidos permitem a geração de amostras mais longas em dispositivos com memória limitada, como GPUs ou CPUs individuais. 

  • Maior capacidade de processamento: devido ao uso reduzido da memória, o RecurrentGemma pode realizar inferências em lotes significativamente maiores, gerando muito mais tokens por segundo (especialmente ao gerar sequências longas). 

  • Inovação em pesquisas: o RecurrentGemma apresenta um modelo não transformador que atinge alto desempenho, destacando avanços em pesquisas de aprendizado profundo. 
Graph showing maximum thoughput when sampling from a prompt of 2k tokens on TPUv5e
Este gráfico mostra como o RecurrentGemma mantém sua velocidade de amostragem, independentemente do tamanho da sequência, enquanto os modelos baseados em Transformer, como o Gemma, ficam mais lentos à medida que as sequências aumentam.

Para entender a tecnologia subjacente, confira nosso artigo. Para uma exploração prática, experimente o notebook, que demonstra como ajustar o modelo.


Criado com base no Gemma, mas expandindo os recursos

Orientadas pelos mesmos princípios dos modelos Gemma originais, as novas variantes de modelo oferecem:

  • Disponibilidade aberta: incentiva a inovação e a colaboração com sua disponibilidade para todos e os termos de uso flexíveis. 

  • Recursos eficientes e de alto desempenho: estendem os recursos dos modelos abertos com conhecimento de domínio específico de código e design otimizado para sugestão e geração excepcionalmente rápidas. 

  • Design responsável: nosso compromisso com a IA responsável ajuda a garantir que os modelos forneçam resultados seguros e confiáveis. 

  • Flexibilidade para diversos tipos de software e hardware:

- CodeGemma e RecurrentGemma: criados com JAX e compatíveis com JAX, PyTorch, Hugging Face Transformers e Gemma.cpp. Habilite a experimentação local e a implantação econômica em vários tipos de hardware, incluindo laptops, computadores, GPUs NVIDIA e Google Cloud TPUs.  

- CodeGemma: compatível também com Keras, NVIDIA NeMo, TensorRT-LLM, Optimum-NVIDIA e MediaPipe e disponível no Vertex AI. 

- RecurrentGemma: o suporte a todos os produtos citados estará disponível nas próximas semanas.


Atualização Gemma 1.1

Juntamente com as novas variantes de modelo, estamos lançando o Gemma 1.1, que inclui melhorias de desempenho. Além disso, ouvimos o feedback dos desenvolvedores, corrigimos os bugs e atualizamos nossos termos para oferecer mais flexibilidade.


Comece a usar hoje

Essas primeiras variantes do modelo Gemma estão disponíveis em vários locais ao redor do mundo, começando hoje com o Kaggle, o Hugging Face e o Vertex AI Model Garden. Veja como começar:

  • Explore as opções de integração: encontre guias e recursos para integrar os modelos às suas ferramentas e plataformas favoritas.

  • Experimente e inove: adicione uma variante do modelo Gemma a seu próximo projeto e explore seus recursos. 


Convidamos você a experimentar os modelos CodeGemma e RecurrentGemma e a compartilhar seu feedback no Kaggle. Juntos, vamos moldar o futuro da criação e compreensão de conteúdo com base em IA.