デベロッパーの皆さんが、Google の最先端画像生成モデル Imagen 3 に Gemini API を通してアクセスできるようになります。まず有料ユーザーがこのモデルにアクセスできるようになり、無料ユーザーには近日中にロールアウトされます。
Imagen 3 は、極めてリアルな画像から、印象的な風景、抽象的な構図、アニメ キャラクターまで、視覚的に魅力的で乱れのない画像をさまざまなスタイルで制作できます。プロンプトへの従い方が改善されているため、優れたアイデアから簡単に高品質の画像を生み出せます。Imagen 3 は、総合的に見て、さまざまなベンチマークで最高クラスのパフォーマンスを達成しています。このような高度な機能にもかかわらず、Gemini API では画像 1 つあたり 0.03 ドルという価格になっており、アスペクト比や生成するオプションの数なども制御できます。
情報や作成元が誤認されることがないように、Imagen 3 が生成した画像にはすべて目に見えないデジタル SynthID 透かしが含まれており、AI が生成したものと識別できます。
以下のギャラリーでは、さまざまなスタイルによる Imagen 3 の生成機能を紹介します。
次に示すのは、Gemini API を使って Imagen 3 で画像を生成する Python コード スニペットです。
from google import genai
from google.genai import types
from PIL import Image
from io import BytesIO
client = genai.Client(api_key='GEMINI_API_KEY')
response = client.models.generate_images(
model='imagen-3.0-generate-002',
prompt='a portrait of a sheepadoodle wearing cape',
config=types.GenerateImagesConfig(
number_of_images=1,
)
)
for generated_image in response.generated_images:
image = Image.open(BytesIO(generated_image.image.image_bytes))
image.show()
生成された画像
Gemini API デベロッパー ドキュメントで、プロンプトに関するアドバイスや画像のスタイルを確認できます。スコア、手法、パフォーマンス向上の詳細については、改訂されたテクニカル レポートの付録 D をご覧ください。
メディア生成モデルの利用を拡大し、Gemini API に展開する第一歩を踏み出せたことをうれしく思っています。近いうちに公開範囲を広げ、デベロッパーの皆さんがメディア生成と言語モデルをつなげるようにする予定です。