Os desenvolvedores já podem acessar o Imagen 3, o modelo de geração de imagens de última geração do Google, por meio da API Gemini. O modelo estará inicialmente acessível para usuários pagos, com lançamento em nível gratuito em breve.
O Imagen 3 se destaca na produção de imagens visualmente atraentes e livres de artefatos em uma ampla variedade de estilos, desde imagens hiper-realistas até paisagens impressionistas, composições abstratas a personagens de anime. O acompanhamento aprimorado de prompts facilita a conversão de ótimas ideias em imagens de alta qualidade. Em geral, o Imagen 3 alcança um desempenho de última geração nos vários comparativos de mercado. O Imagen 3 consegue pelo custo de US$ 0,03 por imagem na API Gemini, com controle sobre proporções, número de opções a serem geradas e muito mais.
Para ajudar a combater a desinformação e a atribuição incorreta, todas as imagens geradas pelo Imagen 3 incluem uma marca d'água SynthID digital não visível, que as identifica como sendo geradas por IA.
A galeria abaixo destaca os recursos do Imagen 3 em uma variedade de estilos.
Este snippet de código Python demonstra como gerar uma imagem com o Imagen 3 usando a API Gemini.
from google import genai
from google.genai import types
from PIL import Image
from io import BytesIO
client = genai.Client(api_key='GEMINI_API_KEY')
response = client.models.generate_images(
model='imagen-3.0-generate-002',
prompt='a portrait of a sheepadoodle wearing cape',
config=types.GenerateImagesConfig(
number_of_images=1,
)
)
for generated_image in response.generated_images:
image = Image.open(BytesIO(generated_image.image.image_bytes))
image.show()
Imagem gerada
Você pode explorar mais dicas de criação de prompts e estilos de imagem nos documentos para desenvolvedores da API Gemini, com mais detalhes disponíveis sobre pontuações, metodologia e melhoria de desempenho no Apêndice D de nosso relatório técnico atualizado.
Estamos muito empolgados com esse primeiro passo para expandir a disponibilidade de nossos modelos de mídia generativa para a API Gemini e planejamos disponibilizar mais recursos no futuro próximo para que os desenvolvedores possam unir os modelos de mídia e linguagem generativa.