Processo de criação: AI Roadtrip, uma campanha do Pixel possibilitada pela IA generativa e pelos fãs

17 DE JUNHO DE 2024

Trudy Painter Creative Lab

Mathew Ray Creative Lab

Jay Chen Creative Lab

Matthew Carey Creative Lab

Rachel Benner Creative Lab

O que acontece quando dois telefones deixam de ser rivais e passam a ser amigos? Você tem a campanha competitiva mais amigável do mundo: Best Phones Forever. Em 17 episódios, esta série levou os telefones a diversas aventuras e construiu um público fiel de fãs.

O engajamento direto com essa comunidade de fãs sempre fez parte do playbook da campanha Best Phones Forever. Para o lançamento da série no ano passado, nossa equipe treinou um LLM com o tom da campanha para ajudar os gerentes da comunidade a gerar respostas com o tema da amizade para milhares de comentários. E, com os rápidos avanços da tecnologia generativa, vimos a oportunidade de levar esse espírito de engajamento em tempo real ainda mais longe.

Entra em cena o Best Phones Forever: AI Roadtrip, nosso primeiro experimento usando a IA generativa para colocar os fãs no controle e dar vida a esses personagens.

Funciona assim: um episódio no Reels do Instagram explica que os dois personagens farão uma viagem habilitada pela IA. Quando um fã insere um comentário com uma ideia de local, nossa equipe usa uma ferramenta específica para gerar uma resposta de vídeo personalizada em poucos minutos. Ao longo de 16 horas, planejamos criar o maior número possível de respostas exclusivas.

A diagram depicting the 5 steps of the AI Roadtrip campaign.

Uso da IA generativa para criar conteúdo personalizado e voltado para os fãs em escala

Em conjunto com nossos parceiros The Mill e Left Field Labs, usamos uma pilha de modelos da IA do Google para projetar uma ferramenta que equilibra a eficiência da máquina com a engenhosidade humana. Esperamos que algumas de nossas conclusões inspirem você a explorar suas próprias aplicações criativas para essas tecnologias.

Para ver a ativação em ação, visite @googlepixel_us no Instagram.

Sobre a ferramenta

Depois que um usuário comenta um local sugerido, inserimos esse local (por exemplo, "o Grand Canyon") em nosso mecanismo de geração para produzir recursos personalizados:

Geração de scripts: o Gemini 1.5 Pro gera vários scripts com base no local comentado, incorporando referências e o tom específicos do local.

Geração de imagens: o Imagen cria uma galeria de possíveis imagens de plano de fundo correspondentes ao contexto do script, preparando o cenário para a aventura.

Geração de áudio: o Cloud Text-to-Speech produz os diálogos usando os scripts gerados para dar voz aos telefones.

Nossa equipe de criação está por dentro de cada etapa, selecionando, editando, revisando e, ocasionalmente, criando novos prompts para garantir que todos os vídeos pareçam realmente fazer parte do universo Best Phones Forever.

A diagram that depicts how assets generated with Google AI, including Gemini, Imagen and Cloud Text to Search, are combined in a 3D compositing engine to create the final video reply

Os elementos básicos de nossa ferramenta de geração de respostas

Como os scripts são gerados

Precisávamos que o Gemini produzisse scripts de forma confiável usando o tom da campanha, com os caracteres, o comprimento, a formatação e o estilo corretos, e que eles também fossem divertidos e realistas em relação a qualquer local que um usuário sugerisse.

Descobrimos que a maneira mais eficaz de fazer isso não era com instruções longas, mas fornecendo vários exemplos no prompt. Nossos escritores criaram scripts curtos sobre o Pixel e o iPhone em diferentes locais e os tipos de conversa que eles poderiam ter em cada um desses locais.

Nosso prompt de geração de scripts

Alimentar o Gemini com isso como parte do prompt do sistema atingiu duas coisas. Primeiro, definiu o comprimento e a estrutura desejados de nossos scripts gerados, com cada telefone dando uma volta em um formato de 4 a 6 linhas. Em segundo lugar, condicionou o modelo a produzir os tipos de diálogo que desejávamos ouvir nesses vídeos (comentários sobre o local, observações divertidas relacionadas a telefones, brincadeiras amigáveis e algumas piadas inocentes).

Projetamos esse prompt para funcionar como um coescritor para escritores humanos. Portanto, uma consideração importante era garantir que o Gemini produzisse uma grande variedade de scripts focados em diferentes aspectos de um local e adotasse diferentes abordagens para a conversa entre o Pixel e o iPhone. Dessa forma, nossos escritores humanos poderiam selecionar entre uma variedade de scripts para escolher aquele que funcionaria melhor, fazer edições ou combinar scripts.

Para garantir essa amplitude de respostas, pedimos ao Gemini que escrevesse os scripts de forma conversacional. Depois que o Gemini produzia um script, pedíamos que ele produzisse outro, e outro e assim por diante, tudo no contexto de uma única conversa. Assim, ele poderia ver os scripts que foram gerados anteriormente e garantir que os novos fossem diferentes, dando aos curadores humanos uma ampla gama de opções.

Como as imagens são criadas

Usamos o Imagen 2 para fornecer a geração de imagens para nossos planos de fundo. Como o mais recente modelo geralmente disponível do Google, ele deu à nossa equipe a capacidade de gerar a grande variedade de locais e estilos que esta campanha exigia, com controles avançados de linguagem natural para nos ajudar a ajustar cada saída.

Queríamos que o Imagen criasse planos de fundo para todos os tipos de locais, mas também queríamos que esses planos fossem semelhantes, em termos de composição, para acomodar o Pixel e o iPhone dirigindo no primeiro plano.

Simplesmente criar um prompt para o modelo com o local, como "Paris" ou "o lado oculto da lua", produziria imagens que se pareceriam com os locais, mas seriam inconsistentes em termos de estilo e composição. Algumas seriam muito reduzidas, algumas seriam em preto e branco e algumas não teriam nenhuma área na qual o Pixel e o iPhone pudessem "dirigir".

A adição de instruções adicionais poderia ajudar a gerar imagens melhores, mas descobrimos que adaptar essa linguagem a cada local era uma tarefa manual e demorada. Por isso, decidimos usar o Gemini para gerar os prompts de imagem. Depois que um escritor humano insere um local, o Gemini cria um prompt para esse local com base em vários prompts de exemplo escritos por humanos. Esse prompt é, então, enviado para o Imagen, que gera a imagem.

Two images side by side. The image on the left was generated with just the prompt “the dark side of the moon.” It is simple and not very realistic. The image on the right was generated with a long prompt provided by Gemini. It is much more detailed and re

Uso do Gemini para gerar imagens de plano de fundo mais detalhadas e específicas

Descobrimos que o uso de prompts gerados por IA produzia imagens que eram mais consistentes em termos de composição e também mais interessantes visualmente. Mas os planos de fundos de nossos vídeos não são simples recursos estáticos; uma vez que são ingeridos no Unreal Engine, eles se tornam uma parte crucial da cena. Veja mais sobre isso na seção abaixo.

Como o som é criado

Depois de finalizarmos os scripts, enviamos todas as linhas para o Cloud Text-to-Speech para gerar o áudio. Esse é o mesmo processo que usamos para todas as vozes dos personagens na campanha Best Phones Forever.

Embora utilizemos o Cloud TTS para sintetizar uma fala natural e de alta fidelidade, nossas vozes para o Pixel e o iPhone têm suas próprias características. Para isso, não encontramos um modelo de IA capaz de realmente ajudar nosso pessoal da criação a atingir o timbre e a cadência específicos que desejávamos. Em vez disso, usamos ferramentas internas para adicionar ênfase e inflexões e realmente dar vida aos nossos personagens.

Two images side by side. The image on the top represents the sound waves of auto-generated laughter. It is a simple curve. The image on the bottom represents tuned laughter. It is a curve with multiple peaks and valleys.

Ajuste criativo em saídas de voz TTS

Alguns vídeos também têm áudio ambiente por trás do diálogo. Usamos uma combinação de efeitos sonoros compostos, gravações de campo e, é claro, áudio gerado por IA com o MusicFX para criar panoramas sonoros para o local e adicionar um toque extra de realismo.

Como tudo se encaixa

Depois que todos os recursos constituintes são produzidos, eles preenchem automaticamente uma fila de renderização para serem ingeridos pelo Unreal Engine e compostos em uma cena 3D com o iPhone, o Pixel e o carro.

A imagem de plano de fundo envolve as partes do fundo e dos lados da cena, fornecendo não apenas o plano de fundo para as fotos dos telefones e do carro, mas também as perspectivas angulares que vemos quando a câmera se move para destacar um personagem falando. Partes do plano de fundo são capturadas nos reflexos no capô do carro e até mesmo no vidro das câmeras dos telefones, enquanto o céu acima interage com a iluminação da cena para agregar ainda mais detalhes e realismo.

Nosso editor de animação não linear permite que o pessoal da criação adicione movimento a cada telefone individual em todas as posições da câmera. Por exemplo, se um telefone faz uma pergunta, ele pode se virar para o outro telefone, em vez de olhar pela janela ou pelo para-brisa, inclinando-se. Afirmações, piadas, concordâncias e surpresas têm suas próprias animações exclusivas, e nós interpolamos perfeitamente todas elas e nosso estado de repouso.

Nossa ferramenta de edição baseada na Web

Finalmente, o pessoal da criação pode ativar os elementos e texturas dinâmicos que realmente personalizam cada vídeo, como respingos de lama no capô para locais rústicos e uma variedade de chapéus para (a maioria das) condições climáticas. Alguns locais também podem merecer uma transformação total do carro, do confiável Rover para um submarino ou uma nave espacial.

O pessoal da criação pode visualizar o VO do vídeo, os cortes de câmera e as animações principais antes de clicar em Render. Assim que tudo está pronto, os jobs de renderização são enviados para 15 máquinas virtuais no Google Cloud Compute. Do início ao fim, um vídeo curto pode ser gerado em apenas 10 minutos, incluindo o tempo de renderização.

Considerações finais e próximos passos

O uso da IA generativa para desenvolvimento e produção de criativos não é uma ideia nova. Mas estamos entusiasmados por termos criado um aplicativo que reúne os modelos mais recentes e prontos para produção do Google de uma maneira inovadora, que leva uma ideia à entrega em tempo real em escala.

Um vídeo típico do Best Phones Forever leva semanas para ser escrito, animado e renderizado. Com esta ferramenta, nossa equipe de criação espera gerar centenas de miniepisódios personalizados em um único dia, todos inspirados na imaginação da comunidade Pixel nas redes sociais.

Esperamos que este experimento dê a você um vislumbre do que é possível atingir usando as APIs Gemini e Imagen, seja qual for o seu destino criativo.

postado em: