去年 12 月,我们首次向受信任的测试人员推出了 Gemini 2.0 Flash 中的原生图像输出功能。如今,我们将为 Google AI Studio 目前支持的所有地区内的开发者提供该功能。您可以在 Google AI Studio 和 Gemini API 中使用 Gemini 2.0 Flash (gemini-2.0-flash-exp) 的实验性版本来测试该新功能。
Gemini 2.0 Flash 通过结合多模态输入、增强推理和自然语言理解来创建图像。
以下是一些 2.0 Flash 多模态输出的示例:
使用 Gemini 2.0 Flash 讲述故事时,该模型会在讲述过程中插入各种图片,并且图中的角色和设置将始终保持一致。向该模型提供反馈后,它将重述故事或改变其绘画风格。
您可以与 Gemini 2.0 Flash 进行多轮自然语言对话,借此编辑图像。该功能非常适合用来迭代图像,使其至臻完美;或者用来同时探索不同的创意。
与许多其他图像生成模型不同,Gemini 2.0 Flash 可利用现实世界知识和增强推理来创建正确的图像。这使得该模型非常适合用来创建逼真的详细图像,例如食谱插图。然而,尽管该模型追求准确性,但和所有其他语言模型一样,其知识储备广泛而笼统,无法保证绝对性和完整性。
大多数图像生成模型难以准确渲染长序列文本,通常会造成格式不佳、字符难以辨认或拼写错误。内部基准测试表明,与领先的其他竞争模型相比,2.0 Flash 具有更强的渲染能力,非常适合用来创建广告、社交帖子甚至邀请函。
通过 Gemini API 开始使用 Gemini 2.0 Flash。有关图像生成功能的更多信息,请参阅相关文档。
from google import genai
from google.genai import types
client = genai.Client(api_key="GEMINI_API_KEY")
response = client.models.generate_content(
model="gemini-2.0-flash-exp",
contents=(
"Generate a story about a cute baby turtle in a 3d digital art style. "
"For each scene, generate an image."
),
config=types.GenerateContentConfig(
response_modalities=["Text", "Image"]
),
)
无论您是要构建 AI 代理、开发具有精美视觉效果的应用(例如带插图的互动式故事),还是通过对话尝试各种视觉效果创意,您只需要 Gemini 2.0 Flash 这一个模型就能添加文本和生成图像。我们非常期望看到开发者使用原生图像输出功能创建的内容,而您的反馈也将帮助我们尽快完成生产就绪型版本。