Gemini 2.0 Flash のネイティブ画像出力は、12 月に信頼できるテスターに向けて初めて導入されました。そして本日より、Google AI Studio を現在利用できるすべての地域で、デベロッパーが試験運用版として利用できるようになります。この新機能は、試験運用版の Gemini 2.0 Flash(gemini-2.0-flash-exp)で、Google AI Studio と Gemini API からテストできます。
Gemini 2.0 Flash は、マルチモーダル入力、高度な推論、自然言語理解を組み合わせて画像を作成します。
以下に、2.0 Flash のマルチモーダル出力が特に優れた能力を発揮する例を示します。
Gemini 2.0 Flash にストーリーを伝えると、一貫したキャラクターと設定を保ちながら、画像で表現してくれます。フィードバックを与えることで、ストーリーを再考させたり、画像のスタイルを変えたりできます。
自然言語で Gemini 2.0 Flash と会話を繰り返すことで、画像編集を手伝ってもらいましょう。何度も編集を重ねて完璧な画像に近づけたり、さまざまなアイデアを一緒に考えたりするのに最適です。
Gemini 2.0 Flash は、他の多くの画像生成モデルとは異なり、世界の知識と高度な推論を活用して正しい画像を作成します。そのため、レシピの説明のようなリアルな詳細画像を作成するのに最適です。最大限の正確性を実現しようとしますが、すべての言語モデルと同じように、持ち合わせている知識は一般的な幅広いものなので、完璧でも完全でもありません。
ほとんどの画像生成モデルは、長いテキスト シーケンスを正確にレンダリングするのが苦手です。ほとんどの場合、不完全なフォーマットになったり、文字が判読できなくなったり、スペルミスが起きたりします。内部ベンチマークでは、2.0 Flash が主要な競合モデルよりも強力なレンダリング能力を持つことや、広告やソーシャル投稿、招待状の作成に最適であることが明らかになっています。
Gemini API から Gemini 2.0 Flash を使ってみましょう。画像生成の詳細については、こちらのドキュメントをご覧ください。
from google import genai
from google.genai import types
client = genai.Client(api_key="GEMINI_API_KEY")
response = client.models.generate_content(
model="gemini-2.0-flash-exp",
contents=(
"Generate a story about a cute baby turtle in a 3d digital art style. "
"For each scene, generate an image."
),
config=types.GenerateContentConfig(
response_modalities=["Text", "Image"]
),
)
AI エージェントの作成、イラストつきのインタラクティブ ストーリーのような美しいビジュアルを使ったアプリの開発、会話によるビジュアル アイデアのブレインストーミングなど、Gemini 2.0 Flash を使えば、1 つのモデルだけでテキストと画像の生成機能を追加できます。デベロッパーの皆さんがネイティブ画像出力を使って作るものが楽しみです。近日中に公開される本番環境対応バージョンを完成させるため、皆さんのフィードバックをお願いいたします。