支持更多宽高比的 Gemini 2.5 Flash Image 现可用于生产环境

2025年10月2日
Alisa Fortin Product Manager
Naina Raisinghani Product Manager GenAI Product
Seth Odoom Product Manager
Guillaume Vernade Gemini Developer Advocate
image7

正式推出我们最先进的图像生成和编辑模型 Gemini 2.5 Flash Image 🍌。该模型可用于生产环境,并且除了能够指定仅输出图像外,还具有支持更多宽高比等新功能。

Gemini 2.5 Flash Image 可让用户无缝融合多个图像,用同样的字符数进行更丰富的故事讲述,使用自然语言执行有针对性的编辑,并利用 Gemini 的广泛世界知识使图像生成和修改更合理。企业可通过 Google AI StudioVertex AI 上的 Gemini API 访问并使用该模型。

该模型进一步拓展了创意的边界,现在支持 10 种不同的宽高比。这使您可以轻松创建各种格式的内容,从电影般的风景到垂直社交媒体帖子均不在话下。

支持的宽高比包括:

  • 横向:21:9、16:9、4:3、3:2
  • 正方形:1:1
  • 纵向:9:16、3:4、2:3
  • 自由:5:4、4:5
image3
创建的不同宽高比图像

正在构建的项目

Cartwheel 正在利用 AI 告别许多其他图像生成器“老虎机般的不稳定用户体验”,让艺术家直接掌控局面,将他们的创意愿景变为现实。在花费数月构建其“姿势模式”功能并发现其他模型无法交付想要的成果后,该团队在 Gemini 2.5 Flash Image 身上找到了解决之道。通过将 Cartwheel 的 3D 姿势工具与 Gemini 2.5 Flash Image 相结合,他们创建了全新图像创建系统,这一强大系统可提供卓越的角色控制能力和一致性。

其他模型无法从任意相机角度渲染角色,也无法在不违背‘世界知识’的情况下稳定维持姿势。全新 Gemini 2.5 Flash Image 模型是第一个可以同时满足这两种需求的模型。”——Cartwheel 联合创始人 Andrew Carr

Link to Youtube Video (visible only when JS is disabled)

Volley 创作了 AI 驱动的地下城探索游戏 Wit's End。他们使用 Gemini 2.5 Flash Image 在游戏过程中实时生成和编辑视觉内容(包括角色肖像、动态场景定格画面、多角色构图),并能对聊天或语音进行快速迭代编辑。

“该模型在遵循美学指导规则方面十分先进,同时可让延迟维持在 10 秒内,这解锁了许多实时用途,例如,可以让玩家选择样式并在多轮循环中优化输出。”——Volley 首席技术官 James Wilsterman

Link to Youtube Video (visible only when JS is disabled)

在最近与 KaggleCerebral Valley 举行的黑客马拉松中,我们看到了社区惊人的创造力。大家提交的数百份作品展示了该模型在 STEM 教育、市场营销材料和实时增强现实等不同领域的出色能力。

开始构建

开发者可以立即开始使用 Gemini 2.5 Flash Image 进行构建。请参阅开发者文档实战宝典,查看使用新功能方面的指导,包括支持的更多宽高比和指定仅输出图像的功能。该模型可通过 Gemini API 使用,并可在 Google AI Studio 中进行测试。

有了 Google AI Studio 的“构建模式”,使用 Gemini 2.5 Flash Image 构建会非常简单。您只需输入一个提示便可即时创建和重制自定义的 AI 应用,例如“构建含筛选器的图像编辑应用”。您可以随时直接从 AI Studio 部署创意,或将代码保存到 GitHub,这些都是免费的。欢迎试用并重制我们的以下示例应用:

  • Bananimate:使用 Nano Banana,通过图像和提示创建动画 GIF。
  • Enhance:使用我们创意十足的放大器无限放大任何摄影作品。找一找其中的复活节彩蛋(提示:🍌)
  • Fit check:上传您本人的照片和服装的照片,看看试穿效果如何。这是由 Nano Banana 提供支持的虚拟试衣间。

Gemini 2.5 Flash Image 的价格为每张图像 0.039 美元,同时每 100 万个输出 Token 的价格为 30.00 美元。其他输入和输出模态的定价与标准 Gemini 2.5 Flash 定价一致。

以下是供您开始使用的示例代码:

from google import genai
from google.genai import types
from PIL import Image
 
client = genai.Client()
 
prompt = "Create a photograph of the subject in this image as if they were living in the 1980s. The photograph should capture the distinct fashion, hairstyles, and overall atmosphere of that time period."
 
image = Image.open('/path/to/image.png')
 
response = client.models.generate_content(
    model="gemini-2.5-flash-image",
    contents=[prompt, image],
    config=types.GenerateContentConfig(
        response_modalities=["IMAGE"],
        image_config=types.ImageConfig(
            aspect_ratio="16:9",
        )
    )
)
 
for part in response.parts:
  if part.inline_data is not None:
    generated_image = part.as_image()
    generated_image.show()
Python

开发者社区的创造力不断让我们感到惊喜。我们热切期待看到您的下一个杰作!