Experimente a geração de imagens nativa do Gemini 2.0 Flash

12 DE MARÇO DE 2025

Kat Kampf Product Manager

Nicole Brichtova Product Manager Google DeepMind

Em dezembro, introduzimos a saída de imagem nativa no Gemini 2.0 Flash para trusted testers. Hoje, estamos disponibilizando-a para experimentação pelos desenvolvedores em todas as regiões com suporte do Google AI Studio no momento. Você pode testar esse novo recurso usando uma versão experimental do Gemini 2.0 Flash (gemini-2.0-flash-exp) no Google AI Studio e via API Gemini.

O Gemini 2.0 Flash combina entrada multimodal, raciocínio aprimorado e processamento de linguagem natural para criar imagens.

Estes são alguns exemplos de onde as saídas multimodais do 2.0 Flash se destacam mais:

1. Texto e imagens juntos

Use o Gemini 2.0 Flash para contar uma história, e ele a ilustrará com imagens, mantendo a consistência total dos personagens e da ambientação. Forneça seu feedback, e o modelo recontará a história ou alterará o estilo de seus desenhos.

Geração de histórias e ilustrações no Google AI Studio

2. Edição de imagens por conversação

O Gemini 2.0 Flash ajuda você a editar imagens por meio de várias voltas em um diálogo em linguagem natural, o que é ótimo para fazer iterações e obter imagem perfeita ou para explorar ideias diferentes em conjunto.

Edição de imagens por conversação com várias voltas, mantendo o contexto durante toda a conversa no Google AI Studio

3. Compreensão do mundo

Ao contrário de muitos outros modelos de geração de imagens, o Gemini 2.0 Flash aproveita o conhecimento do mundo e o raciocínio aprimorado para criar a imagem certa. Isso o torna perfeito para criar imagens detalhadas que sejam realistas, como ilustrar uma receita. Embora seu objetivo seja a acurácia, como todos os modelos de linguagem, seu conhecimento é amplo e generalizado, não absoluto ou completo.

Saída de texto e imagem intercalados para uma receita no Google AI Studio

4. Renderização de texto

A maioria dos modelos de geração de imagens tem dificuldades para renderizar com precisão sequências longas de texto, muitas vezes resultando em caracteres mal formatados ou ilegíveis ou em erros ortográficos. Os comparativos de mercado internos mostram que o 2.0 Flash tem uma renderização mais sólida em comparação com os principais modelos competitivos e é ótimo para criar anúncios, postagens em redes sociais ou até mesmo convites.

Saídas de imagem com renderização de texto longo no Google AI Studio

Comece a criar imagens com o Gemini hoje

Comece a usar o Gemini 2.0 Flash por meio da API Gemini. Leia mais sobre geração de imagens em nossos documentos.

from google import genai
from google.genai import types
 
client = genai.Client(api_key="GEMINI_API_KEY")
 
response = client.models.generate_content(
    model="gemini-2.0-flash-exp",
    contents=(
        "Generate a story about a cute baby turtle in a 3d digital art style. "
        "For each scene, generate an image."
    ),
    config=types.GenerateContentConfig(
        response_modalities=["Text", "Image"]
    ),
)

Python

Seja para criar agentes de IA, desenvolver apps com imagens lindas, como histórias interativas ilustradas, ou debater ideias visuais em conversas, o Gemini 2.0 Flash permite que adicionar a geração de texto e imagens com um único modelo. Estamos ansiosos para ver o que os desenvolvedores vão criar com a saída de imagem nativa, e o seu feedback nos ajudará a finalizar uma versão pronta para produção em breve.