Cómo se hace: AI Roadtrip, una campaña de Pixel impulsada por IA generativa y fanáticos

JUN 17, 2024
Trudy Painter Creative Lab
Mathew Ray Creative Lab
Jay Chen Creative Lab
Matthew Carey Creative Lab
Rachel Benner Creative Lab

¿Qué sucede cuando dos teléfonos dejan de ser rivales y comienzan a ser amigos? Se obtiene la campaña competitiva más amigable del mundo: Best Phones Forever. A lo largo de los 17 episodios de esta serie, que ha generado un público leal de fanáticos, se relatan las aventuras de los teléfonos.

Interactuar directamente con esa comunidad de fanáticos siempre ha sido uno de los objetivos principales de Best Phones Forever. Para el lanzamiento de la serie del año pasado, nuestro equipo entrenó a un LLM sobre el tono de la campaña para ayudar a los administradores de la comunidad a generar respuestas relacionadas con la amistad a miles de comentarios. Y con los rápidos avances en la tecnología generativa, aprovechamos la oportunidad de llevar ese espíritu de interacción en tiempo real a una escala aun mayor.

Ahí surge Best Phones Forever: AI Roadtrip, nuestro primer experimento en el uso de IA generativa para poner a los fanáticos al mando y dar vida a estos personajes.

Funciona de la siguiente manera: en un episodio de Instagram Reels, se explica que los dos personajes emprenden un viaje por carretera impulsados por la IA. Cuando un seguidor hace un comentario con una idea sobre la ubicación, nuestro equipo utiliza una herramienta especialmente diseñada para generar una respuesta de video personalizada en cuestión de minutos. Durante 16 horas, planeamos crear tantas respuestas únicas como sea posible.

A diagram depicting the 5 steps of the AI Roadtrip campaign.
Uso de la IA generativa para crear contenido personalizado impulsado por fanáticos a escala

En colaboración con nuestros socios The Mill y Left Field Labs, usamos una pila de modelos de Google AI para diseñar una herramienta que equilibra la eficiencia de la máquina con el ingenio humano. Esperamos que algunas de nuestras conclusiones te inspiren a explorar tus propias aplicaciones creativas de estas tecnologías.

Para ver la activación en acción, visita @googlepixel_us en Instagram.


Acerca de la herramienta

Después de que un usuario sugiere una ubicación, la tomamos (por ejemplo, "el Gran Cañón") y la ingresamos en nuestro motor de generación para producir recursos personalizados:

  • Generación de guiones: Gemini 1.5 Pro genera múltiples guiones en función de la ubicación sugerida, incorporando referencias y humor específicos de la ubicación.

  • Generación de imágenes: Imagen crea una galería de posibles imágenes de fondo que coinciden con el contexto del guion, preparando el escenario para la aventura.

  • Generación de audios: Cloud Text-to-Speech crea los diálogos a partir de los guiones generados, dando voz a nuestros amigos teléfonos.

Nuestro equipo creativo se involucra en cada paso seleccionando, editando, revisando y, de forma ocasional, dando nuevas indicaciones para asegurarse de que cada video parezca realmente parte del universo de Best Phones Forever.

A diagram that depicts how assets generated with Google AI, including Gemini, Imagen and Cloud Text to Search, are combined in a 3D compositing engine to create the final video reply
Los componentes básicos de nuestra herramienta de generación de respuestas

Cómo se generan los guiones

Necesitábamos que Gemini produjera guiones confiables en la voz de la campaña, con los personajes, la duración, el formato y el estilo correctos, y que, a su vez, fueran entretenidos y fieles a cualquier ubicación sugerida por un usuario.

Descubrimos que la forma más efectiva de hacerlo no era con instrucciones largas, sino incluyendo numerosos ejemplos en la indicación. Nuestros escritores crearon guiones cortos sobre Pixel y iPhone en diferentes ubicaciones y los tipos de conversación que podrían tener en cada lugar.

Nuestra indicación de generación de guiones

Al ingresarlos a Gemini como parte de la indicación del sistema, obtuvimos dos resultados. Primero, se establecieron la longitud y la estructura deseadas de nuestros guiones generados y cada teléfono se turnó en un formato de 4 a 6 líneas. En segundo lugar, se condicionó el modelo para generar los tipos de diálogo que queríamos escuchar en estos videos (observaciones sobre la ubicación, humor relacionado con los teléfonos, bromas amistosas y también algunos "chistes de padre").

Diseñamos esta indicación para que funcione como coguionista con escritores humanos, por lo que fue importante asegurarnos de que Gemini produjera una amplia gama de guiones que se centraran en diferentes aspectos de una ubicación y adoptaran distintos enfoques para la conversación entre Pixel y iPhone. De esa manera, nuestros escritores humanos pudieron seleccionar entre una variedad de guiones para elegir el que mejor funcionara, hacer ediciones o combinar guiones.

Para garantizar esta amplitud de respuestas, pedimos a Gemini que escribiera guiones de forma conversacional. Después de que Gemini produjera un guion, le pedimos que generara uno diferente, y luego uno diferente, y así sucesivamente, todo en el contexto de una sola conversación. De esa manera, pudo ver los guiones que se generaron antes y asegurarse de que los nuevos abordaran un aspecto diferente, brindando a los selectores humanos una amplia gama de opciones.


Cómo se crean las imágenes

Utilizamos Imagen 2 a fin de proporcionar la generación de imágenes para nuestros fondos. Debido a que es el último modelo con disponibilidad general de Google, le dio a nuestro equipo la capacidad de generar la amplia variedad de ubicaciones y estilos que requería esta campaña, con potentes controles de lenguaje natural para ajustar cada resultado.

Queríamos que Imagen creara fondos para todo tipo de ubicaciones, pero también queríamos que los fondos tuvieran una composición similar para adaptarse a la conducción de Pixel y iPhone en primer plano.

Con solo indicarle al modelo "París" o "el lado oscuro de la luna" como ubicación, se produjeron imágenes parecidas a las ubicaciones, pero inconsistentes tanto en el plano estilístico como en el compositivo. Algunas se alejaban demasiado, otras eran en blanco y negro, y otras no tenían ningún área en la que Pixel y iPhone pudieran "conducir".

Al agregar instrucciones adicionales, pudimos generar mejores imágenes, pero nos pareció que adaptar ese lenguaje a cada ubicación era un trabajo manual que requería mucho tiempo. Es por eso que decidimos usar Gemini para generar las indicaciones de imágenes. Después de que un escritor humano ingresa una ubicación, Gemini crea una indicación para esa ubicación en función de una serie de indicaciones de muestra escritas por humanos. Esa indicación se envía a Imagen, que genera la imagen.

Two images side by side. The image on the left was generated with just the prompt “the dark side of the moon.” It is simple and not very realistic. The image on the right was generated with a long prompt provided by Gemini. It is much more detailed and re
Uso de Gemini para generar imágenes de fondo más detalladas y específicas

Descubrimos que el uso de indicaciones generadas por IA producía imágenes que eran más consistentes desde el punto de vista de la composición y también más interesantes visualmente. Sin embargo, los fondos de nuestros videos no son solo un recurso estático; una vez que se transfieren a Unreal Engine, se convierten en una parte crucial de la escena. Hay más información al respecto en la siguiente sección.


Cómo se crea el sonido

Después de finalizar los guiones, enviamos cada línea a Cloud Text-to-Speech para generar el audio. Este es el mismo proceso que utilizamos para todas las voces de los personajes de la campaña Best Phones Forever.

Si bien nos apoyamos en Cloud TTS para sintetizar un discurso de alta fidelidad que suene natural, nuestras voces para Pixel y iPhone tienen sus propias características. En este aspecto, no encontramos un modelo de IA que realmente pueda ayudar a nuestros creativos a alcanzar el timbre y la cadencia específicos que queremos. En su lugar, usamos herramientas internas para agregar énfasis e inflexiones y dar vida a nuestros personajes.

Two images side by side. The image on the top represents the sound waves of auto-generated laughter. It is a simple curve. The image on the bottom represents tuned laughter. It is a curve with multiple peaks and valleys.
Ajuste creativo de las salidas de voz de TTS

Algunos videos también tienen audio ambiental de fondo, además del diálogo. Utilizamos una mezcla de efectos de sonido compuestos, grabaciones de campo y, por supuesto, audio generado por IA con MusicFX para crear paisajes sonoros para la ubicación y agregar un toque adicional de realismo.


Cómo se combina todo

Una vez que se producen todos los recursos constituyentes, rellenan automáticamente una cola de renderizado que se transfiere a Unreal Engine y compone en una escena 3D con iPhone, Pixel y el automóvil.

La imagen de fondo cubre la parte trasera y los laterales de la escena, proporcionando no solo el fondo para las tomas directas de los teléfonos y el automóvil, sino también las perspectivas en ángulo que vemos cuando la cámara se mueve para destacar un personaje que habla. Se capturan partes del fondo en los reflejos en el capó del coche e incluso en el cristal de las cámaras de los teléfonos, mientras que el cielo interactúa con la iluminación de la escena para agregar más detalles y realismo.

Nuestro editor de animación no lineal permite a nuestros creativos agregar movimiento a cada teléfono individual en todas las posiciones de nuestra cámara. Por ejemplo, si un teléfono hace una pregunta, puede orientarse hacia el otro teléfono, en lugar de mirar por la ventana o por el parabrisas, inclinándose o poniéndose de lado de manera tentativa. Declaraciones, chistes, acuerdos y sorpresas, todos tienen sus propias animaciones únicas, e interpolamos a la perfección entre todas ellas y nuestro estado de reposo.

Nuestra herramienta de edición basada en la Web

Por último, nuestros creativos pueden activar los elementos dinámicos y las texturas que realmente personalizan cada video, como salpicaduras de barro en el capó en las ubicaciones campestres y una variedad de sombreros para (la mayoría de) las diferentes condiciones climáticas. Algunas ubicaciones también podrían merecer una transformación total del automóvil, desde un confiable vehículo explorador hasta un submarino o una nave espacial.

Los creativos pueden obtener una vista previa de la narración, los cortes de cámara y las animaciones principales del video antes del renderizado. Una vez que están listos, todos los trabajos de renderizado se envían a través de 15 máquinas virtuales en Google Cloud Compute. De principio a fin, se puede generar un video corto en tan solo 10 minutos, incluido el tiempo de renderizado.


Reflexiones finales y próximos pasos

El uso de IA generativa para el desarrollo y la producción de contenido creativo no es una idea nueva. Sin embargo, nos entusiasma haber compilado una aplicación que incluye los últimos modelos de producción de Google de una manera novedosa, que lleva una idea a la entrega en tiempo real a escala.

La escritura, animación y renderización de un video típico de Best Phones Forever tarda semanas. Con esta herramienta, nuestros creativos esperan generar cientos de miniepisodios personalizados en un solo día, todos inspirados en la imaginación de la comunidad de Pixel en las redes sociales.

Esperamos que este experimento te dé una idea de lo que puedes lograr con las API de Gemini e Imagen, cualquiera sea tu destino creativo.