Gemini 2.0 Flash のネイティブ画像生成を試してみる

Gemini 2.0 Flash のネイティブ画像出力は、12 月に信頼できるテスターに向けて初めて導入されました。そして本日より、Google AI Studio を現在利用できるすべての地域で、デベロッパーが試験運用版として利用できるようになります。この新機能は、試験運用版の Gemini 2.0 Flash（gemini-2.0-flash-exp）で、Google AI Studio と Gemini API からテストできます。

Gemini 2.0 Flash は、マルチモーダル入力、高度な推論、自然言語理解を組み合わせて画像を作成します。

以下に、2.0 Flash のマルチモーダル出力が特に優れた能力を発揮する例を示します。

1. テキストと画像を組み合わせる

Gemini 2.0 Flash にストーリーを伝えると、一貫したキャラクターと設定を保ちながら、画像で表現してくれます。フィードバックを与えることで、ストーリーを再考させたり、画像のスタイルを変えたりできます。

Google AI Studio でストーリーと画像を生成する

2. 会話形式で画像を編集する

自然言語で Gemini 2.0 Flash と会話を繰り返すことで、画像編集を手伝ってもらいましょう。何度も編集を重ねて完璧な画像に近づけたり、さまざまなアイデアを一緒に考えたりするのに最適です。

Google AI Studio のマルチターン会話形式画像編集では、会話全体の文脈が維持される

3. 世界を理解する

Gemini 2.0 Flash は、他の多くの画像生成モデルとは異なり、世界の知識と高度な推論を活用して正しい画像を作成します。そのため、レシピの説明のようなリアルな詳細画像を作成するのに最適です。最大限の正確性を実現しようとしますが、すべての言語モデルと同じように、持ち合わせている知識は一般的な幅広いものなので、完璧でも完全でもありません。

Google AI Studio でレシピ向けにテキストと画像を交互に出力する

4. テキストのレンダリング

ほとんどの画像生成モデルは、長いテキストシーケンスを正確にレンダリングするのが苦手です。ほとんどの場合、不完全なフォーマットになったり、文字が判読できなくなったり、スペルミスが起きたりします。内部ベンチマークでは、2.0 Flash が主要な競合モデルよりも強力なレンダリング能力を持つことや、広告やソーシャル投稿、招待状の作成に最適であることが明らかになっています。

Google AI Studio で長いテキストを含む画像を出力する

さっそく Gemini で画像を作ってみよう

Gemini API から Gemini 2.0 Flash を使ってみましょう。画像生成の詳細については、こちらのドキュメントをご覧ください。

from google import genai
from google.genai import types
 
client = genai.Client(api_key="GEMINI_API_KEY")
 
response = client.models.generate_content(
    model="gemini-2.0-flash-exp",
    contents=(
        "Generate a story about a cute baby turtle in a 3d digital art style. "
        "For each scene, generate an image."
    ),
    config=types.GenerateContentConfig(
        response_modalities=["Text", "Image"]
    ),
)

Python

AI エージェントの作成、イラストつきのインタラクティブストーリーのような美しいビジュアルを使ったアプリの開発、会話によるビジュアルアイデアのブレインストーミングなど、Gemini 2.0 Flash を使えば、1 つのモデルだけでテキストと画像の生成機能を追加できます。デベロッパーの皆さんがネイティブ画像出力を使って作るものが楽しみです。近日中に公開される本番環境対応バージョンを完成させるため、皆さんのフィードバックをお願いいたします。