本日は、Google 最先端の画像生成および編集モデル Gemini 2.5 Flash Image(別名 nano-banana)をご紹介します。今回のアップデートにより、複数の画像を合成して 1 つの画像を生成し、人物の一貫性を維持しつつ豊かなストーリーテリングを生み出し、自然言語によってターゲットを絞った変換を実行できるほか、Gemini の実世界の知識を利用して画像を生成および編集できます。
今年初めに Gemini 2.0 Flash で初めてのネイティブ画像生成をリリースした際は、皆さんからレイテンシが低い、費用対効果が高い、使いやすいなどの声が寄せられましたが、必要としているのは優れた画質や高性能なクリエイティブ面のコントロールであるとのフィードバックもいただきました。
今回のモデルは Gemini API、デベロッパー向けの Google AI Studio、エンタープライズ向けの Vertex AI 経由で利用可能です。Gemini 2.5 Flash Image の料金は 100 万出力トークンあたり $30.00 で、画像あたり $0.039 です(画像ごとに 1,290 出力トークン)。その他すべての入力と出力の方式は Gemini 2.5 Flash の料金に従います。
Gemini 2.5 Flash Image での構築をさらに簡単にできるよう、Google AI Studio の「ビルドモード」を大幅にアップデートしました(さらなるアップデートを予定しています)。以下の例では、カスタムの AI 搭載アプリを使用してモデルの機能をすばやくテストできるだけでなく、単一のプロンプトでリミックスしたり、アイデアを実現したりできます。作成したアプリを共有する準備が整ったら、Google AI Studio から直接デプロイすることも、コードを GitHub に保存することも可能です。
たとえば「Build me an image editing app that lets a user upload an image and apply different filters(ユーザーが画像をアップロードして各種フィルターを適用できるような画像編集アプリを作成して)」といったプロンプトを試したり、あらかじめ設定されたテンプレートから選んでリミックスしたりできます。すべて無料です。
画像生成の基本的な課題は、複数のプロンプトや編集で人物やオブジェクトの外観を維持することです。同じ人物を別の環境に配置したり、単一の製品を新しい設定で複数の角度から見せたり、一貫したブランド アセットを生成したりできるようになっており、その間も主体は維持されます。
私たちが作成した Google AI Studio のテンプレート アプリ(コードのカスタマイズやバイブが簡単にできるアプリ)では、人物の一貫性を保つ機能をデモンストレーションできます。
このモデルは人物の一貫性以外に、ビジュアル テンプレートに従うという点でも優れています。1 つのデザイン テンプレートから不動産のリスティング カード、統一された従業員バッジ、カタログ全体での動的な製品モックアップを作成するなど、デベロッパーはさまざまな分野をすでに模索しているようです。
Gemini 2.5 Flash Image では、ターゲットを絞った変換と精密なローカル編集を自然言語によって実行可能です。たとえば、画像の背景のぼかし、T シャツの汚れの除去、写真からの人物全体の除去、被写体のポーズの変更、白黒写真での色の追加など、何でもシンプルなプロンプトによって生み出せます。
こうした機能を実際に見てもらうため、UI とプロンプトベースのコントロールの両方を備えた AI Studio での写真編集テンプレート アプリを作成しました。
これまで画像生成モデルは美的画像の面で優れていましたが、現実世界に対する深い知識や意味論的な理解が欠けていました。Gemini 2.5 Flash Image では、Gemini の現実世界の知識というメリットを活用し、新たなユースケースに対応します。
このデモンストレーションとして、シンプルなキャンバスをインタラクティブな教育チューターに変えるテンプレート アプリを Google AI Studio に作成しました。モデルが手書きのダイアグラムを読み取り、理解し、現実世界の質問に対応し、複雑な編集の指示に 1 ステップで従えることを見せています。
Gemini 2.5 Flash Image は、複数の入力画像を理解して合成できます。1 つのプロンプトでオブジェクトをシーンに配置したり、カラーパターンやテクスチャを使用して部屋のスタイルを変更したり、画像を融合したりできます。
画像合成を紹介するためのテンプレート アプリを Google AI Studio に作成しました。このアプリでは製品を新しいシーンにドラッグすると、写真さながらにリアルな合成画像をすぐに作成できます。
デベロッパー向けドキュメントをチェックして、Gemini 2.5 Flash Image で作成を開始しましょう。このモデルは本日、Gemini API と Google AI Studio でプレビューとして公開されていますが、今後数週間で安定していく予定です。今回取り上げたデモアプリはすべて Google AI Studio でバイブ コーディングされているため、プロンプトだけでリミックスしてカスタマイズできます。
OpenRouter.ai は本日、Gemini 2.5 Flash Image を世界中の 300 万人を超えるデベロッパーに提供するため私たちと提携しました。これは現在ライブで画像を生成できる 480 以上のモデルのうち OpenRouter の最初のモデルとなります。
さらに、Gemini 2.5 Flash Image をより幅広いデベロッパー コミュニティで利用できるよう、生成メディアの大手デベロッパー プラットフォーム fal.ai とも提携しました。
Gemini 2.5 Flash Image で作成または編集された画像のすべてに、目に見えない SynthID デジタル ウォーターマークが入っており、AI で生成または編集された画像として識別が可能です。
from google import genai
from PIL import Image
from io import BytesIO
client = genai.Client()
prompt = "Create a picture of my cat eating a nano-banana in a fancy restaurant under the gemini constellation"
image = Image.open('/path/to/image.png')
response = client.models.generate_content(
model="gemini-2.5-flash-image-preview",
contents=[prompt, image],
)
for part in response.candidates[0].content.parts:
if part.text is not None:
print(part.text)
elif part.inline_data is not None:
image = Image.open(BytesIO(part.inline_data.data))
image.save("generated_image.png")
私たちは、長文のレンダリング、より正確な人物の一貫性、および画像細部などの事実に基づく表現を改善すべく積極的に取り組んでいます。今後も引き続きデベロッパー フォーラムまたは X でのフィードバックをお待ちしています。
Gemini 2.5 Flash Image を使った画像生成や画像編集をぜひお試しください。