Experimento de generación de imágenes nativas con Gemini 2.0 Flash

MAR 12, 2025
Kat Kampf Product Manager Google AI Studio
Nicole Brichtova Product Manager Google DeepMind

En diciembre, presentamos por primera vez la generación de imágenes nativas en Gemini 2.0 Flash a verificadores de confianza. Hoy, la ponemos a disposición de los desarrolladores para que experimenten en todas las regiones que admite actualmente Google AI Studio. Puedes probar esta nueva función utilizando una versión experimental de Gemini 2.0 Flash (gemini-2.0-flash-exp) en Google AI Studio y a través de la API de Gemini.

Gemini 2.0 Flash combina la entrada multimodal, el razonamiento mejorado y la comprensión del lenguaje natural para crear imágenes.

Estos son algunos casos en los que las salidas multimodales de Flash 2.0 se destacan:


1. Texto e imágenes juntos

Usa Gemini 2.0 Flash para contar una historia y el sistema la ilustrará con imágenes. Mantendrá la consistencia en relación con los personajes y el entorno. Si escribes comentarios u otras instrucciones, el modelo volverá a contar la historia o cambiará el estilo de los dibujos.

Generación de historias e ilustraciones en Google AI Studio

2. Edición de imágenes conversacionales

Gemini 2.0 Flash te ayuda a editar imágenes en función de un diálogo en lenguaje natural, de modo que logres una imagen perfecta o puedan explorar diferentes ideas juntos.

Edición de imágenes de conversación manteniendo el contexto durante toda la conversación en Google AI Studio

3. Comprensión del mundo

A diferencia de muchos otros modelos de generación de imágenes, Gemini 2.0 Flash aprovecha el conocimiento del mundo y el razonamiento mejorado para crear la imagen correcta. Por este motivo, es perfecto para crear imágenes detalladas y realistas, como ilustrar una receta. Si bien se esfuerza por la precisión, como todos los modelos de lenguaje, su conocimiento es amplio y general, no absoluto ni completo.

Salida de texto e imagen intercalados para una receta en Google AI Studio

4. Renderización de texto

La mayoría de los modelos de generación de imágenes tienen dificultades para renderizar con precisión secuencias largas de texto, por lo que se suelen generar caracteres mal formateados o ilegibles, o faltas de ortografía. Los puntos de referencia internos muestran que 2.0 Flash tiene una representación más sólida en comparación con los modelos líderes de la competencia y es ideal para crear anuncios, publicaciones en redes sociales o incluso invitaciones.

Salidas de imágenes con renderización de texto largo en Google AI Studio

Comienza hoy a crear imágenes con Gemini

Comienza a usar Gemini 2.0 Flash a través de la API de Gemini. Obtén más información sobre la generación de imágenes en nuestros documentos.

from google import genai
from google.genai import types
 
client = genai.Client(api_key="GEMINI_API_KEY")
 
response = client.models.generate_content(
    model="gemini-2.0-flash-exp",
    contents=(
        "Genera una historia sobre una tortuguita bebé en estilo de arte digital 3D. "
        "Genera una imagen para cada escena."
    ),
    config=types.GenerateContentConfig(
        response_modalities=["Text", "Image"]
    ),
)

Ya sea que estés creando agentes de IA, desarrollando apps con hermosas imágenes como historias interactivas ilustradas o intercambiando ideas visuales en una conversación, Gemini 2.0 Flash te permite agregar texto y generar imágenes con un solo modelo. Tenemos muchas ganas de ver qué crean los desarrolladores con la generación de imágenes nativas y sus comentarios nos ayudarán a finalizar una versión lista para producción pronto.