隆重推出我们最先进的图像模型 Gemini 2.5 Flash Image

2025年8月26日
Alisa Fortin Product Manager
Guillaume Vernade Gemini Developer Advocate
Kat Kampf Product Manager
Ammaar Reshi Product and Design Lead AI Studio

今天,我们很高兴地推出 Gemini 2.5 Flash Image(又名 nano-banana),这是我们最先进的图像生成与编辑模型。此次更新使您能够将多张图像融合为一张图像,保持角色一致性以增强叙事表现力,通过自然语言进行有针对性的变换,并利用 Gemini 的世界知识来生成和编辑图像。

今年早些时候,当我们首次在 Gemini 2.0 Flash 中推出原生图像生成功能时,其低延迟、高性价比和易用性深受用户好评。但大家也反馈期待获得更高质量的图像以及更强的创意控制能力。

该模型现已通过 Gemini APIGoogle AI Studio 向开发者开放,企业用户可通过 Vertex AI 获取。Gemini 2.5 Flash Image 的定价为每 100 万输出 token 30.00 美元。单张图像为 1290 个输出 token(即每张图像约 0.039 美元)。所有其他输入和输出模态的计价均遵循 Gemini 2.5 Flash 的定价标准。

Gemini 2.5 Flash Image 的实际应用

为降低 Gemini 2.5 Flash Image 的使用门槛,我们大幅升级了 Google AI Studio 的“构建模式”(后续还将持续更新)。如下方示例所示,您不仅可以使用自定义的 AI 驱动应用快速测试模型的能力,还能通过单条提示实现应用重构与创意落地。当您准备好分享自己构建的应用时,可以直接从 Google AI Studio 部署,或将代码保存到 GitHub。

不妨尝试输入这样的提示:“开发一款支持用户上传图像并添加多样滤镜的图像编辑应用”,或直接选用预设模板进行重构。所有功能皆可免费使用!


保持角色一致性

图像生成领域的核心挑战在于保持角色或对象在多次提示与编辑中的外观一致性。现在,您可以将同一角色置入不同的环境中,以多种角度在新场景中展示同一产品,或生成风格统一的品牌素材,同时始终保留主体特征。

我们在 Google AI Studio 中构建了模板应用(您可以轻松自定义,并在此基础上进行氛围编码),用以展示模型的角色一致性功能。

(序列已截短)

除角色一致性外,该模型还具备卓越的视觉模板适配能力。我们已经看到开发者探索诸多应用场景,例如房地产商品详情卡片、统一的员工工牌、整个产品目录的动态产品效果图等,这些内容均可基于单一设计模板实现。

gemini-2-5-image-editing-character-consistency

基于提示的图像编辑

Gemini 2.5 Flash Image 支持通过自然语言实现目标化变换和精确的局部编辑。例如,模型可以模糊图像背景、去除 T 恤上的污渍、将照片中的某个人完全移除、调整主体的姿势、为黑白照片上色,或者根据一个简单的提示实现您所能想到的其他各种编辑效果。

为了直观展示这些功能,我们在 AI Studio 中构建了照片编辑模板应用,同时支持界面操作和基于提示的控制方式。

gemini-2-5-flash-prompt-based-image-editing

原生世界知识

传统而言,图像生成模型在生成美观图像方面表现出色,却缺乏对现实世界的深层语义理解。而 Gemini 2.5 Flash Image 融合了 Gemini 的世界知识,解锁了全新的应用场景。

为了演示此功能,我们在 Google AI Studio 中构建了模板应用,可将简单的画布转化为交互式教育辅导工具。该应用展示了模型在单步操作中实现三项能力:解析理解手绘图表、辅助解答现实问题,以及遵循复杂编辑指令。

(示例提示和模型结果)

多图像融合

Gemini 2.5 Flash Image 能够理解并融合多张输入图像。您能够将物体嵌入场景、通过配色方案或纹理重新装饰房间,仅用一条提示即可实现图像融合。

为展示多图融合能力,我们在 Google AI Studio 中构建了模板应用,您只需将产品拖拽到新场景中,即可快速生成一张新的、逼真的融合图像。

(序列已截短)

开始构建

欢迎查阅我们的开发者文档,立即开始使用 Gemini 2.5 Flash Image 进行开发。该模型目前通过 Gemini APIGoogle AI Studio 提供预览版,稳定版本将在未来几周内上线。本文展示的所有演示版应用均通过 Google AI Studio 的氛围编码实现,仅需单个提示即可完成重构与定制。

OpenRouter.ai 已与我们达成合作,即日起向其全球超 300 万名开发者提供 Gemini 2.5 Flash Image。这是 OpenRouter 平台上 480 多个现役模型中首个具备图像生成能力的模型。

我们也很高兴与领先的生成式媒体开发平台 fal.ai 展开合作,将 Gemini 2.5 Flash Image 推广至更广泛的开发者社区。

所有使用 Gemini 2.5 Flash Image 创建或编辑的图像都将包含隐形的 SynthID 数字水印,以便识别其为 AI 生成或编辑的内容。

from google import genai
from PIL import Image
from io import BytesIO
 
client = genai.Client()
 
prompt = "Create a picture of my cat eating a nano-banana in a fancy restaurant under the gemini constellation"
 
image = Image.open('/path/to/image.png')
 
response = client.models.generate_content(
    model="gemini-2.5-flash-image-preview",
    contents=[prompt, image],
)
 
for part in response.candidates[0].content.parts:
  if part.text is not None:
    print(part.text)
  elif part.inline_data is not None:
    image = Image.open(BytesIO(part.inline_data.data))   
    image.save("generated_image.png")
Python

我们正全力优化长文本渲染效果、进一步提升角色一致性的可靠性,并增强图像细节等事实性呈现。欢迎继续通过我们的开发者论坛或在 X 平台上向我们提供反馈。

我们迫不及待想看到您用 Gemini 2.5 Flash Image 创作出的精彩作品!