试用 Gemini 2.0 Flash 原生图像生成功能

三月 12, 2025
Kat Kampf Product Manager Google AI Studio
Nicole Brichtova Product Manager Google DeepMind

去年 12 月,我们首次向受信任的测试人员推出了 Gemini 2.0 Flash 中的原生图像输出功能。如今,我们将为 Google AI Studio 目前支持的所有地区内的开发者提供该功能。您可以在 Google AI Studio 和 Gemini API 中使用 Gemini 2.0 Flash (gemini-2.0-flash-exp) 的实验性版本来测试该新功能。

Gemini 2.0 Flash 通过结合多模态输入、增强推理和自然语言理解来创建图像。

以下是一些 2.0 Flash 多模态输出的示例:


1. 文本和图像相结合

使用 Gemini 2.0 Flash 讲述故事时,该模型会在讲述过程中插入各种图片,并且图中的角色和设置将始终保持一致。向该模型提供反馈后,它将重述故事或改变其绘画风格。

Google AI Studio 中的故事和插图生成

2. 通过对话编辑图像

您可以与 Gemini 2.0 Flash 进行多轮自然语言对话,借此编辑图像。该功能非常适合用来迭代图像,使其至臻完美;或者用来同时探索不同的创意。

当您在 Google AI Studio 中通过多轮对话来编辑图像时,整个对话过程中的上下文将保持不变。

3. 理解世界

与许多其他图像生成模型不同,Gemini 2.0 Flash 可利用现实世界知识和增强推理来创建正确的图像。这使得该模型非常适合用来创建逼真的详细图像,例如食谱插图。然而,尽管该模型追求准确性,但和所有其他语言模型一样,其知识储备广泛而笼统,无法保证绝对性和完整性。

Google AI Studio 中的食谱说明,文本和图像输出相互交错

4. 文本渲染

大多数图像生成模型难以准确渲染长序列文本,通常会造成格式不佳、字符难以辨认或拼写错误。内部基准测试表明,与领先的其他竞争模型相比,2.0 Flash 具有更强的渲染能力,非常适合用来创建广告、社交帖子甚至邀请函。

Google AI Studio 中长文本渲染的图像输出

立即开始使用 Gemini 绘制图像

通过 Gemini API 开始使用 Gemini 2.0 Flash。有关图像生成功能的更多信息,请参阅相关文档

from google import genai
from google.genai import types
 
client = genai.Client(api_key="GEMINI_API_KEY")
 
response = client.models.generate_content(
    model="gemini-2.0-flash-exp",
    contents=(
        "Generate a story about a cute baby turtle in a 3d digital art style. "
        "For each scene, generate an image."
    ),
    config=types.GenerateContentConfig(
        response_modalities=["Text", "Image"]
    ),
)

无论您是要构建 AI 代理、开发具有精美视觉效果的应用(例如带插图的互动式故事),还是通过对话尝试各种视觉效果创意,您只需要 Gemini 2.0 Flash 这一个模型就能添加文本和生成图像。我们非常期望看到开发者使用原生图像输出功能创建的内容,而您的反馈也将帮助我们尽快完成生产就绪型版本。