제작 방법: 생성형 AI와 팬의 참여로 만들어지는 Pixel 캠페인, AI Roadtrip

6월 17, 2024
Trudy Painter Creative Lab
Mathew Ray Creative Lab
Jay Chen Creative Lab
Matthew Carey Creative Lab
Rachel Benner Creative Lab

두 스마트폰이 경쟁을 멈추고 친구가 된다면 어떤 일이 벌어질까요? 세계에서 가장 상냥한 대결 캠페인 Best Phones Forever에서 확인하실 수 있습니다. 17편의 에피소드로 구성된 이 시리즈는 스마트폰과 함께 다양한 모험을 거치며 충성도 높은 팬층을 구축했습니다.

팬 커뮤니티와의 직접적인 소통은 언제나 Best Phones Forever 전략의 한 부분을 차지했습니다. 작년에 시리즈 런칭을 위해 저희 팀은 커뮤니티 관리자가 수천 개의 댓글에 우정을 주제로 한 응답을 생성할 수 있도록 캠페인의 분위기에 대해 LLM을 학습시켰습니다. 그리고 생성형 기술의 급격한 발전에 따라 실시간 참여 정신을 훨씬 더 큰 규모로 확대할 수 있는 기회를 포착했습니다.

Best Phones Forever 참가: AI Roadtrip — 생성형 AI를 사용하여 팬들의 주도로 이러한 캐릭터에 생명을 불어넣는 첫 번째 실험.

캠페인 방식: Instagram Reels의 한 에피소드에서 두 캐릭터가 AI로 장거리 자동차 여행을 떠난다고 설명합니다. 팬이 여행지에 관한 아이디어를 댓글에 남기면 저희 팀이 특별히 제작된 도구를 사용하여 몇 분 내에 맞춤형 동영상 응답을 생성합니다. 16시간 동안 가능한 한 많은 독창적인 응답 콘텐츠를 만들어볼 계획입니다.

A diagram depicting the 5 steps of the AI Roadtrip campaign.
생성형 AI를 사용하여 맞춤형 팬 중심 콘텐츠를 대규모로 제작하기

파트너사 The MillLeft Field Labs와 손잡고 Google AI 모델 스택을 사용하여 기계의 효율성과 인간의 독창성이 균형을 이루는 도구를 설계했습니다. 저희가 선보이는 콘텐츠가 여러분만의 창의적인 방식으로 이런 기술을 응용할 방법을 탐구하는 계기가 되길 바랍니다.

실제 활성화된 결과물을 보려면 Instagram에서 @googlepixel_us를 방문하세요.


도구 소개

사용자가 제안하고자 하는 장소를 댓글로 달면 저희가 해당 장소(예: '그랜드 캐니언')를 생성 엔진에 입력하여 맞춤형 애셋을 생성합니다.

  • 스크립트 생성: Gemini 1.5 Pro가 장소별 참조와 유머를 통합하여 댓글에 달린 장소를 기반으로 여러 스크립트를 생성합니다.

  • 이미지 생성: Imagen이 스크립트의 컨텍스트와 일치하는 잠재적 배경 이미지 갤러리를 만들어 모험 장면을 설정합니다.

  • 오디오 생성: Cloud Text-to-Speech는 생성된 스크립트에서 대화를 출력하여 절친한 친구 사이인 스마트폰에 음성을 제공합니다.

모든 동영상이 정말로 Best Phones Forever 세계의 일부인 것처럼 느껴지도록 저희 크리에이티브 팀이 각 단계에서 선택, 편집, 검토 그리고 때때로 프롬프트 재작성 작업까지 진행합니다.

A diagram that depicts how assets generated with Google AI, including Gemini, Imagen and Cloud Text to Search, are combined in a 3D compositing engine to create the final video reply
회신 생성 도구의 구성 요소

스크립트 생성 방법

저희는 Gemini가 정확한 문자와 길이, 포맷, 스타일과 더불어 캠페인에 어울리는 목소리로 스크립트를 안정적으로 생성하는 동시에 사용자가 제안한 장소가 어디든 그에 맞게 재미있고 충실한 콘텐츠를 생성하도록 해야 했습니다.

이를 위한 가장 효과적인 방법은 긴 지시문을 입력하는 것이 아니라 프롬프트에 많은 예를 제시하는 것이라는 점을 깨달았습니다. 팀의 스크립트 작성자들은 여러 다른 장소에 있는 Pixel과 iPhone에 대한 짧은 스크립트를 작성하고 각 장소에서 나눌 만한 종류의 대화를 창작했습니다.

스크립트 생성 프롬프트

시스템 프롬프트의 일부로 Gemini에 이런 프롬프트를 제공하여 두 가지를 달성했습니다. 첫째, 생성되는 스크립트에 있어 원하는 길이와 구조를 설정했는데, 각 스마트폰이 4~6줄 포맷의 대화를 돌아가며 나누는 것입니다. 둘째, 이러한 동영상에서 듣고자 했던 대화의 종류(장소에 대한 의견, 스마트폰과 관련된 유머, 친근한 농담, 적지 않은 수의 아재 개그)를 출력하도록 모델에 조건을 지정했습니다.

이 프롬프트는 인간 작성자와 공동으로 작성 작업을 하도록 설계되었습니다. 그래서 Gemini가 장소의 여러 측면에 주목한 다양한 스크립트를 생성하고 Pixel과 iPhone 간의 대화에 대해 여러 가지 접근 방식을 취하도록 하는 것이 중요한 고려 사항이었습니다. 이를 통해 인간 작성자는 다양한 스크립트 가운데 골라서 가장 효과적인 스크립트를 선택하거나 스크립트를 편집하거나 결합할 수 있습니다.

이처럼 광범위한 응답을 보장하기 위해 Gemini가 대화식으로 스크립트를 작성하도록 했습니다. Gemini가 스크립트를 하나 생성한 후 다른 스크립트를, 그다음에 또 다른 스크립트를 생성하도록 하는 식으로 진행했습니다. 모두 단일한 대화의 맥락에서 생성되도록 했습니다. 이를 통해, Gemini는 이전에 생성된 스크립트를 보고 새 스크립트에는 새로운 내용이 담기도록 함으로써 스크립트를 선택하는 인간에게 다양한 옵션을 제공할 수 있었습니다.


이미지 생성 방법

저희는 Imagen 2를 사용하여 배경용 이미지 생성을 제공했습니다. 최근에 Google이 정식 출시한 모델인 Imagen 2 덕분에 이 캠페인에 필요한 다양한 장소와 스타일을 생성하고 강력한 자연어 제어 기능으로 각 출력 결과를 조정할 수 있었습니다.

저희는 Imagen이 모든 종류의 장소에 알맞은 배경을 만들어 주기를 원했을 뿐만 아니라 이 배경이 전경에서 운전하는 Pixel 및 iPhone과도 잘 맞도록 유사하게 구성되기를 원했습니다.

'파리' 또는 '달의 어두운 면'과 같은 장소를 모델에 프롬프트로 제공하기만 하면 해당 장소처럼 보이는 이미지가 산출됩니다. 하지만 스타일과 구성에서 모두 일관성이 없었습니다. 일부는 너무 축소되고, 일부는 흑백이며, 일부는 Pixel과 iPhone이 '운전'할 수 있는 지역이 없었습니다.

지침을 더 추가하면 더 나은 이미지를 생성하는 데 도움이 되겠지만, 각 장소에 맞게 해당 언어를 조정하는 것은 수작업으로 해야 하고 시간도 많이 소요된다는 점을 알게 되었습니다. 그래서 Gemini를 사용하여 이미지 프롬프트를 생성하기로 했습니다. 인간 작성자가 장소를 입력하면 Gemini가 인간이 작성한 여러 샘플 프롬프트를 기반으로 해당 장소에 대한 프롬프트를 만듭니다. 그런 다음 해당 프롬프트가 Imagen으로 전송되어 이미지가 생성됩니다.

Two images side by side. The image on the left was generated with just the prompt “the dark side of the moon.” It is simple and not very realistic. The image on the right was generated with a long prompt provided by Gemini. It is much more detailed and re
Gemini를 사용하여 보다 상세하고 구체적인 배경 이미지 생성

AI로 생성된 프롬프트를 사용하면 구성이 일관적일 뿐 아니라 시각적으로도 흥미로운 이미지가 생성됨을 깨달았습니다. 하지만 동영상의 배경은 단순한 정적 애셋이 아닙니다. 일단 Unreal Engine으로 수집되면 동영상 배경은 장면에서 매우 중요한 부분이 됩니다. 자세한 내용은 아래 섹션에서 확인하세요.


사운드 생성 방법

스크립트를 마무리한 후 각 대사를 Cloud Text-to-Speech(Cloud TTS)로 보내 오디오를 생성합니다. Best Phones Forever 캠페인의 모든 캐릭터 목소리에 동일한 프로세스가 적용되었습니다.

Cloud TTS를 활용해서 고충실도의 자연스러운 음성을 합성하지만, Pixel과 iPhone의 목소리는 제각기 고유한 특성이 있습니다. 여기서는 크리에이티브 팀에서 원하는 특정 음색과 억양을 구현하는 데 실제로 도움이 될 수 있는 AI 모델을 찾지 못했습니다. 대신, 캐릭터에 생명을 불어넣기 위해 내부 도구를 사용하여 강세와 억양을 추가합니다.

Two images side by side. The image on the top represents the sound waves of auto-generated laughter. It is a simple curve. The image on the bottom represents tuned laughter. It is a curve with multiple peaks and valleys.
TTS 음성 출력에 대한 창의적인 튜닝

일부 동영상에는 대화 아래로 주변 오디오도 있습니다. 저희는 창작된 음향 효과, 필드 녹음, 그리고 물론 AI로 생성된 오디오도 MusicFX로 믹싱하여 해당 장소의 사운드 환경을 만들고 사실감을 더합니다.


이 모든 것이 어우러지는 방식

모든 구성 애셋이 생성되면, Unreal Engine에 수집되어 iPhone, Pixel, 자동차가 등장하는 3D 장면으로 합성되도록 모든 애셋은 렌더 큐를 자동으로 채웁니다.

배경 이미지는 장면의 뒤쪽과 옆쪽을 두르고 있습니다. 이는 스마트폰과 자동차의 정면 샷의 배경뿐만 아니라 발화하는 캐릭터를 강조하기 위해 카메라가 움직일 때 보이는 기울어진 시점도 제공합니다. 배경의 일부는 자동차 후드와 심지어 스마트폰 카메라의 유리에도 반사되어 담기고, 머리 위로 펼쳐진 하늘은 해당 장면의 조명과 상호 작용하여 더욱 디테일하고 사실적인 느낌을 더합니다.

비선형 애니메이션 편집기 덕분에 모든 카메라 위치에서 각각의 개별 스마트폰에 모션을 추가할 수 있습니다. 예를 들어, 한 스마트폰이 질문하는 상황이라면 두 스마트폰이 창밖을 내다보거나 차 앞 유리를 통해 전방을 향하는 대신, 마치 실제로 옆 사람과 대화하는 시선처럼 살짝 서로를 향해 비스듬히 기울어지듯 처리할 수 있습니다. 진술, 농담, 동의, 놀람 등의 각 상황에 알맞은 고유한 애니메이션이 있으며 그 모든 동작과 정지 상태 사이가 매끄럽게 연결됩니다.

웹 기반 편집 도구

마지막으로, 저희 크리에이티브 팀은 시골에서 운전할 때는 자동차 후드에 튄 진흙이나 기상 조건에 맞는 다양한 모자 등, 각 동영상에 제대로 개성을 부여하는 역동적인 요소와 텍스처를 설정할 수 있습니다. 장소에 따라서는 믿음직한 지프차부터 잠수함이나 우주선까지 다양한 형태로 자동차를 완전히 변형시킬 수도 있습니다.

크리에이티브 작업자는 렌더링을 실행하기 전에 동영상의 VO, 카메라 컷, 기본 애니메이션을 미리 볼 수 있습니다. 준비가 완료되면 모든 렌더링 작업이 Google Cloud Compute의 15개 가상 머신으로 전송됩니다. 렌더링 시간을 포함하여 처음부터 끝까지 불과 10여 분 만에 짧은 동영상을 생성할 수 있습니다.


결론과 다음 단계

창의적인 개발과 프로덕션 작업에 생성형 AI를 사용하는 것은 새로운 아이디어가 아닙니다. 하지만 저희가 개발한 것은 Google의 최신 프로덕션 지원 모델을 참신한 방식으로 결합하여 아이디어를 대규모로 실시간 제공하는 애플리케이션이라 무척 기대됩니다.

일반적인 Best Phones Forever 동영상 제작에는 스크립트 작성, 애니메이션 작업, 렌더링 과정까지 수 주가 걸립니다. 저희 크리에이티브 팀은 이 도구를 사용하여 소셜 플랫폼에서 Pixel 커뮤니티의 상상력에 영감을 받아 단 하루 만에 맞춤형 미니 에피소드 수백 개를 생성할 수 있기를 바랍니다.

창작의 목적이 무엇이든 이번 실험을 통해 Gemini와 Imagen API를 사용해 여러분이 무엇을 할 수 있는지 엿볼 수 있는 기회가 되길 바랍니다.