Modelos de linguagem pequenos no dispositivo com multimodalidade, RAG e chamada de função

20 DE MAIO DE 2025

Mark Sherwood Senior Product Manager

Matthew Chan Staff Software Engineer

Marissa Ikonomidis Staff Software Engineer

No ano passado, o Google AI Edge introduziu suporte para modelos de linguagem pequenos (SLMs) no dispositivo, com quatro modelos iniciais no Android, iOS e na Web. Hoje, temos o prazer de expandir o suporte para mais de uma dezena de modelos, incluindo os novos modelos Gemma 3 e Gemma 3n, hospedados em nossa nova comunidade LiteRT no Hugging Face.

O Gemma 3n, disponível via Google AI Edge como um pré-lançamento antecipado, é o primeiro modelo de linguagem pequeno multimodal no dispositivo do Gemma que oferece suporte a entradas de texto, imagem, vídeo e áudio. Em conjunto com nossas novas bibliotecas de geração aumentada via recuperação (RAG) e de chamada de função, você tem tudo o que precisa para criar protótipos e recursos de IA transformadores totalmente avançados.

Permita que os usuários controlem apps com SLMs no dispositivo e nossa nova biblioteca de chamada de função

Suporte maior a modelos

Você pode encontrar nossa lista crescente de modelos disponíveis na comunidade LiteRT no Hugging Face. Faça o download de qualquer um desses modelos e execute-os facilmente no dispositivo com apenas algumas linhas de código. Os modelos são totalmente otimizados e convertidos para uso em dispositivos móveis e na Web. As instruções completas sobre como executar esses modelos estão disponíveis em nossa documentação e no cartão de cada modelo no Hugging Face.

Para personalizar qualquer um desses modelos, ajuste o modelo de base e, em seguida, converta e quantize o modelo usando as bibliotecas apropriadas do AI Edge. Temos um Colab que mostra todas as etapas necessárias para ajustar e converter o Gemma 3 1B.

Com a versão mais recente de nossas ferramentas de quantização, temos novos esquemas que possibilitam uma quantização pós-treinamento int4 de qualidade muito maior. Em comparação com o bf16, o tipo de dados padrão para muitos modelos, a quantização int4 pode reduzir o tamanho dos modelos de linguagem em um fator de 2,5-4X, além de diminuir significativamente a latência e o pico de consumo de memória.

Gemma 3 1B e Gemma 3n

No início deste ano, apresentamos o Gemma 3 1B. Com apenas 529 MB, esse modelo pode executar até 2.585 tokens por segundo de pré-preenchimento na GPU para dispositivos móveis, permitindo que ele processe até uma página de conteúdo em menos de um segundo. O pequeno espaço de ocupação do Gemma 3 1B permite que ele ofereça suporte a uma ampla gama de dispositivos e limita o tamanho dos arquivos dos quais o usuário final deve fazer o download no aplicativo.

Hoje, temos o prazer de adicionar um pré-lançamento antecipado do Gemma 3n à nossa coleção de modelos compatíveis. As variantes de parâmetros 2B e 4B oferecerão suporte a entradas de texto, imagem, vídeo e áudio nativas. As modalidades de texto e imagem já estão disponíveis no Hugging Face, e a de áudio estará disponível em breve.

Gemma 3n analisando imagens totalmente no dispositivo

O Gemma 3n é excelente para casos de uso corporativo em que os desenvolvedores têm todos os recursos do dispositivo disponíveis, o que possibilita modelos maiores em dispositivos móveis. Os técnicos de campo sem sinal de serviço podem tirar uma foto de uma peça e fazer uma pergunta. Os funcionários em um depósito ou uma cozinha podem atualizar o inventário usando a voz enquanto suas mãos estão ocupadas.

Trazendo contexto para as conversas: geração aumentada via recuperação (RAG) no dispositivo

Um dos novos e mais interessantes recursos que estamos trazendo para o Google AI Edge é o suporte robusto para a geração aumentada via recuperação (RAG) no dispositivo. A RAG permite aumentar o modelo de linguagem pequeno com dados específicos para o aplicativo, sem a necessidade de ajustes. A partir de 1000 páginas de informações ou 1000 fotos, a RAG pode ajudar a encontrar apenas os dados mais relevantes para fornecer ao modelo.

A biblioteca de RAG do AI Edge funciona com qualquer um de nossos modelos de linguagem pequenos compatíveis. Além disso, ela oferece a flexibilidade de alterar qualquer parte do pipeline de RAG, permitindo bancos de dados personalizados, métodos de agrupamento e funções de recuperação. A biblioteca de RAG do AI Edge já está disponível no Android e, em breve, estará disponível em mais plataformas. Isso significa que seus aplicativos de IA generativa no dispositivo agora podem basear-se em informações específicas e relevantes para o usuário, desbloqueando uma nova classe de recursos inteligentes.

Ativação das ações: chamada de função no dispositivo

Para tornar os modelos de linguagem no dispositivo verdadeiramente interativos, estamos introduzindo a chamada de função no dispositivo. A biblioteca de chamada de função do AI Edge já está disponível no Android e, em breve, estará disponível em mais plataformas. A biblioteca inclui todos os utilitários de que você precisa para integrar-se a um modelo de linguagem no dispositivo, fazer registro das funções do aplicativo, analisar a resposta e chamar as funções. Confira a documentação e experimente.

Esse recurso avançado permite que os modelos de linguagem decidam, com inteligência, quando chamar funções ou APIs predefinidas em seu aplicativo. Por exemplo, em nosso app de exemplo, demonstramos como a chamada de função pode ser usada para preencher um formulário por meio da linguagem natural. No contexto de um app médico que solicita o histórico do paciente antes da consulta, o usuário fala suas informações pessoais. Com nossa biblioteca de chamada de função e um modelo de linguagem no dispositivo, o app converte a voz em texto, extrai as informações relevantes e, em seguida, chama funções específicas do aplicativo para preencher os campos individuais.

A biblioteca de chamadas de função também pode ser usada em conjunto com nossa biblioteca de simulação de ferramenta Python, que ajuda a criar um modelo de linguagem personalizado para funções específicas por meio da geração e avaliação de dados sintéticos, aumentando a acurácia da chamada de função no dispositivo.

O que vem por aí

Continuaremos a oferecer suporte para os melhores e mais recentes modelos de linguagem pequenos no Edge, incluindo novas modalidades. Fique de olho em nossa comunidade LiteRT no Hugging Face para conhecer os lançamentos de novos modelos. Nossas bibliotecas de RAG e de chamada de função continuarão sendo expandidas em termos de funcionalidade e plataformas compatíveis.

Para conhecer outras novidades do Google AI Edge, leia sobre as novas APIs LiteRT e nosso novo serviço AI Edge Portal para obter avaliações e comparativos de mercado no dispositivo com ampla cobertura.

Explore este anúncio e todas as atualizações do Google I/O 2025 no io.google a partir de 22 de maio.

Agradecimentos

^{Também queremos agradecer aos seguintes Googlers pelo apoio nesses lançamentos: Advait Jain, Akshat Sharma, Alan Kelly, Andrei Kulik, Byungchul Kim, Chunlei Niu, Chun-nien Chan, Chuo-Ling Chang, Claudio Basile, Cormac Brick, Ekaterina Ignasheva, Eric Yang, Fengwu Yao, Frank Ban, Gerardo Carranza, Grant Jensen, Haoliang Zhang, Henry Wang, Ho Ko, Ivan Grishchenko, Jae Yoo, Jingjiang Li, Jiuqiang Tang, Juhyun Lee, Jun Jiang, Kris Tonthat, Lin Chen, Lu Wang, Marissa Ikonomidis, Matthew Soulanille, Matthias Grundmann, Milen Ferev, Mogan Shieh, Mohammadreza Heydary, Na Li, Pauline Sho, Pedro Gonnet, Ping Yu, Pulkit Bhuwalka, Quentin Khan, Ram Iyengar, Raman Sarokin, Rishika Sinha, Ronghui Zhu, Sachin Kotwani, Sebastian Schmidt, Steven Toribio, Suleman Shahid, T.J. Alumbaugh, Tenghui Zhu, Terry (Woncheol) Heo, Tyler Mullen, Vitalii Dziuba, Wai Hon Law, Weiyi Wang, Xu Chen, Yi-Chun Kuo, Yishuang Pang, Youchuan Hu, Yu-hui Chen, Zichuan Wei}