O Imagen 3 chega à API Gemini

FEV 06, 2025
Ivan Solovyev Product Manager

Os desenvolvedores já podem acessar o Imagen 3, o modelo de geração de imagens de última geração do Google, por meio da API Gemini. O modelo estará inicialmente acessível para usuários pagos, com lançamento em nível gratuito em breve.

O Imagen 3 se destaca na produção de imagens visualmente atraentes e livres de artefatos em uma ampla variedade de estilos, desde imagens hiper-realistas até paisagens impressionistas, composições abstratas a personagens de anime. O acompanhamento aprimorado de prompts facilita a conversão de ótimas ideias em imagens de alta qualidade. Em geral, o Imagen 3 alcança um desempenho de última geração nos vários comparativos de mercado. O Imagen 3 consegue pelo custo de US$ 0,03 por imagem na API Gemini, com controle sobre proporções, número de opções a serem geradas e muito mais.

Para ajudar a combater a desinformação e a atribuição incorreta, todas as imagens geradas pelo Imagen 3 incluem uma marca d'água SynthID digital não visível, que as identifica como sendo geradas por IA.


Veja o Imagen 3 em ação

A galeria abaixo destaca os recursos do Imagen 3 em uma variedade de estilos.

Imagen 3 generated image of a group of people looking happy, natural light, 8k
Prompt: Grupo de pessoas com aparência feliz, luz natural, 8 k.
Imagen 3 generated Hyperrealistic portrait of a person dressed in 1920s flapper fashion, vintage style, black and white photograph, elegant pose, 8k
Prompt: Retrato hiper-realista de uma pessoa vestida com a moda flapper dos anos 1920, estilo vintage, fotografia em preto e branco, pose elegante, 8 k.
Imagen 3 generated image of a close-up of a vintage watch with realistic and detailed mechanism
Prompt: Imagine uma foto em close-up de um relógio vintage. Gere uma representação realista com um mecanismo detalhado.
Imagen 3 generated image of an impressionistic landscape painting of a sunset over a field of sunflowers, vibrant colors, thick brushstrokes, inspired by Monet
Prompt: Pintura impressionista de paisagem com um pôr do sol sobre um campo de girassóis, cores vibrantes, pinceladas grossas, inspiradas no estilo de Monet.
Imagen 3 generated image of A surreal dreamscape featuring a giant tortoise with a lush forest growing on its back, floating through a starry sky, glowing mushrooms, bioluminescent plants, ethereal atmosphere
Prompt: Uma paisagem de sonho surrealista mostrando uma tartaruga gigante com uma floresta exuberante em suas costas, flutuando em um céu estrelado, cogumelos brilhantes, plantas bioluminescentes, atmosfera etérea.
Imagen 3 generated lifestyle image of freshly roasted coffee beans spilling out of a burlap sack onto a rustic wooden table next to a up of coffee with 'Awaken Your Senses' written on the cup in cursive
Prompt: Imagem do tipo estilo de vida com grãos de café recém-torrados saindo de um saco de juta sobre uma mesa de madeira rústica, vapor subindo de uma xícara de café próxima, "Awaken Your Senses" está escrito na xícara em letra cursiva, ambiente acolhedor e convidativo, luz solar matinal, fotografia de produto.
Imagen 3 generated hyperrealistic portrait of a woman with piercing blue eyes, laughing, freckles, dramatic lighting, detailed skin texture, 8k
Prompt: Retrato hiper-realista de uma mulher com olhos azuis penetrantes, rindo, sardas, iluminação dramática, textura de pele detalhada, 8 k.
Imagen 3 generated panoramic view of a majestic mountain range at dawn
Prompt: Uma vista panorâmica de uma cordilheira majestosa ao amanhecer.
Imagen 3 generated scene from a game where the player needs to find a specific object by looking into drawers in a messy desk
Prompt: Mostre uma cena de um jogo em que o jogador precisa encontrar um objeto específico procurando-o nas gavetas de uma mesa bagunçada.
Imagen 3 generated painted cityscape in the style of Van Gogh
Prompt: Uma paisagem urbana pintada no estilo de Van Gogh, com pinceladas onduladas e cores vibrantes.

Primeiros passos com o Imagen 3 na API Gemini

Este snippet de código Python demonstra como gerar uma imagem com o Imagen 3 usando a API Gemini.

from google import genai
from google.genai import types
from PIL import Image
from io import BytesIO
 
client = genai.Client(api_key='GEMINI_API_KEY')
 
response = client.models.generate_images(
    model='imagen-3.0-generate-002',
    prompt='a portrait of a sheepadoodle wearing cape',
    config=types.GenerateImagesConfig(
        number_of_images=1,
    )
)
for generated_image in response.generated_images:
  image = Image.open(BytesIO(generated_image.image.image_bytes))
  image.show()

Imagem gerada

Imagen 3 generated portrait of a sheepadoodle wearing a cape

Você pode explorar mais dicas de criação de prompts e estilos de imagem nos documentos para desenvolvedores da API Gemini, com mais detalhes disponíveis sobre pontuações, metodologia e melhoria de desempenho no Apêndice D de nosso relatório técnico atualizado.

Estamos muito empolgados com esse primeiro passo para expandir a disponibilidade de nossos modelos de mídia generativa para a API Gemini e planejamos disponibilizar mais recursos no futuro próximo para que os desenvolvedores possam unir os modelos de mídia e linguagem generativa.