当两部手机不再是竞争对手,而是开始成为朋友时,会发生什么?请观看世界上最友好的竞争活动视频:Best Phones Forever。该系列共有 17 集,拥有许多忠实粉丝,讲述手机经历的一系列冒险。
直接与粉丝社区互动一直是 Best Phones Forever 剧本的一部分。在去年的系列发布会上,我们的团队根据活动的基调对 LLM 进行了训练,以帮助社区经理为数千条评论生成以友谊为主题的响应。随着生成式技术的快速发展,我们看到了进一步发大规模扬实时互动精神的机会。
了解 Best Phones Forever:AI Roadtrip – 这是我们使用生成式 AI,让粉丝坐上驾驶座并让这些角色走进现实而进行的首次实验。
以下是它的工作原理:Instagram Reels 上的一集剧集解释说,这两个角色正在进行由 AI 提供支持的公路旅行。当粉丝发表有关地点灵感的评论时,我们的团队会使用专用工具,并在几分钟内生成自定义视频响应。在 16 小时内,我们计划创建尽可能多的独特回复。
我们与合作伙伴 The Mill 和 Left Field Labs 合作,使用一堆 Google AI 模型设计了一款可平衡机器效率和人类智慧的工具。我们希望其中的一些要点可以激励您探索这些技术的创造性应用。
要查看激活操作,在 Instagram 上输入 @googlepixel_us 即可找到我们
用户发表推荐地点评论后,我们会将该地点(例如“大峡谷”)输入到生成引擎中,以生成自定义资源:
我们的创意团队在每个步骤中都会循环往复地进行选择、编辑、审核,并偶尔重新给出提示,以确保每个视频都能让观众感觉真正身处 Best Phones Forever 世界。
我们需要 Gemini 可靠地生成符合活动基调的脚本,不仅字符、长度、格式和样式正确,同时也具有娱乐性,并贴合用户推荐的地点。
我们发现,最有效的方法不是提供冗长的说明,而是提供大量的提示示例。我们的作者创建了关于 Pixel 和 iPhone 在不同地点的短脚本,以及它们在各个地点可能进行怎样的对话。
将这些内容作为系统提示的一部分馈送到 Gemini,这一举措发挥了两个作用。首先,为我们的生成脚本设置所需的长度和结构,让每部手机都以 4-6 行的格式轮流发言。其次,使模型输出我们希望在这些视频中听到的对话类型(关于地点的观察、与手机有关的诙谐表达、友好的玩笑以及大量老套笑话)。
我们设计这个提示是为了与人类作家携手创作,因此一个重要的考虑因素是确保 Gemini 生成侧重于地点不同方面的各种脚本,并采取不同的方法处理 Pixel 和 iPhone 之间的对话。这样,我们的人类作家可以从各种脚本中进行选择,要么选择效果最好的脚本,要么进行编辑,要么结合使用多个脚本。
为了确保响应的广度,我们让 Gemini 以对话的方式编写脚本。Gemini 生成一个脚本后,我们让它生成一个不同的脚本,然后再生成一个不同的脚本,以此类推,所有这些都在一个对话的背景下进行。这样,Gemini 就可以看到以前生成的脚本,并确保新的脚本覆盖了新的领域,从而为人类策划人提供广泛的选择。
我们使用 Imagen 2 生成背景图像。作为 Google 面向公众发布的最新模型,它让我们的团队能够生成此活动所需的各种地点和样式,并使用强大的自然语言控件来帮助我们调整每个输出。
我们希望 Imagen 为各种地点创建背景,但我们也希望背景的构图方式相似,以适应 Pixel 和 iPhone 在前景中的驾驶画面。
如果仅输入“巴黎”或“月亮背面”这样的地点提示,模型生成的图像虽然看起来与地点相符,但在风格和构图上却都不一致。有些图像的缩小程度过大,有些图像会变成黑白色,有些图像则没有可供 Pixel 和 iPhone“驾驶”的区域。
添加额外说明有助于生成效果更好的图像。但我们发现,为每个地点量身定制语言不仅需要手动完成,而且耗时。因此,我们决定使用 Gemini 生成图像提示。在人类作家输入地点后,Gemini 会根据人类编写的多个示例提示为该地点创建提示。然后,该提示会被发送到 Imagen 以生成图像。
我们发现,根据 AI 提示生成的图像在构图上更加一致,在视觉上也更有趣。不过,视频的背景不仅仅是静态资源;这些资源一旦被提取到 Unreal Engine 中,就会成为场景的重要组成部分。有关更多信息,请参阅下面的部分。
最终确定脚本后,我们会将每行脚本都发送到 Cloud Text-to-Speech 以生成音频。这与我们在 Best Phones Forever 活动中为所有角色配音的过程相同。
虽然我们依靠 Cloud TTS 来合成高保真、自然的语音,但 Pixel 和 iPhone 的声音都应该有其自身的特点。目前,我们还没有找到一个 AI 模型可以真正帮助我们的创意人员为有着特定音色和讲话节奏的角色配音。相反,我们使用内部工具来添加重音和音调变化,真正让角色栩栩如生。
有些视频在对话下方还有环境音频。我们使用合成音效、现场录音,当然还有 MusicFX 生成的 AI 音频来为此类地点创建音景,并添加额外的真实感。
生成所有构成资源后,它们会自动填充至渲染队列以供 Unreal Engine 提取,Unreal Engine 会将这些内容合成到包含 iPhone、Pixel 和汽车的 3D 场景中。
背景图像环绕场景的背面和侧面,为正面拍摄手机和汽车提供了背景。不仅如此,当摄像头移动以聚焦正在说话的角色时,我们便能以不同的角度观看场景。您可以在汽车引擎盖甚至是手机摄像头的玻璃上捕捉到部分背景的倒影;上方的天空则与场景的灯光相互作用,以增添更多细节和真实感。
利用我们的非线性动画编辑器,创意人员可以在所有的摄像头位置为每部手机添加动作。例如,如果一部手机提出问题,摄像头可能会朝向另一部手机,而不是对着窗外或挡风玻璃,并会以试探性的姿态倾斜。陈述、说笑、同意和惊喜腔调都有独特的动画显示,并且我们会在所有这些动画和静态画面之间无缝插值。
最后,我们的创意人员可以在每个视频中运用独特的动态元素和纹理,比如汽车经过乡村位置时,引擎盖上会溅满泥浆,以及针对(大多数)天气状况设计的各种帽子。在某些地点,我们可能还会彻底改造汽车,包括逼真的火星车、潜艇或宇宙飞船。
在渲染前,创意人员可以预览视频的画外音、镜头剪辑和主要动画画面。准备就绪后,所有渲染作业都将被分派到 Google Cloud Compute 的 15 台虚拟机上。从开始到结束,短视频在短短 10 分钟(包括渲染时间)内即可生成。
使用生成式 AI 进行创意开发和生产并非新想法。但我们很高兴已开发的这款应用能够以一种新颖的方式将 Google 可立即投入生产的多款最新模型汇聚在一起,从而实现大规模实时交付。
对于 Best Phones Forever 视频而言,撰写剧本、制作动画和进行渲染通常需要数周时间。借助此工具,我们的创意人员希望在一天内生成数百个自定义迷你剧集,这一切的灵感都来自于 Pixel 社区在社交媒体上展现的想象力。
无论您预期的创意成果是什么,我们都希望本次实验能够让您对 Gemini 和 Imagen API 带来的可能性有所了解。