Ahora, los desarrolladores pueden acceder a Imagen 3, el modelo de generación de imágenes de última generación de Google, a través de la API de Gemini. Inicialmente, solo podrán acceder los usuarios de pago, pero dentro de poco se lanzará en el nivel gratuito.
Imagen 3 se destaca por producir imágenes visualmente atractivas y sin artefactos en una amplia variedad de estilos, desde las hiperrealistas hasta paisajes impresionistas, composiciones abstractas y personajes de anime. El seguimiento de indicaciones mejorado facilita la conversión de grandes ideas en imágenes de alta calidad. En general, Imagen 3 logra un rendimiento de vanguardia en una variedad de puntos de referencia. Imagen 3 alcanza este objetivo al precio de USD 0,03 por imagen en la API de Gemini y ofrece control sobre las relaciones de aspecto, la cantidad de opciones para generar y más.
Para ayudar a combatir la desinformación y la atribución errónea, todas las imágenes generadas por Imagen 3 incluyen una marca de agua digital SynthID no visible, que las identifica como generadas por IA.
En la galería que se muestra a continuación, se destacan las capacidades de Imagen 3 en una variedad de estilos.
En este fragmento de código, se de Python muestra cómo generar una imagen con Imagen 3 utilizando la API de Gemini.
from google import genai
from google.genai import types
from PIL import Image
from io import BytesIO
client = genai.Client(api_key='GEMINI_API_KEY')
response = client.models.generate_images(
model='imagen-3.0-generate-002',
prompt='a portrait of a sheepadoodle wearing cape',
config=types.GenerateImagesConfig(
number_of_images=1,
)
)
for generated_image in response.generated_images:
image = Image.open(BytesIO(generated_image.image.image_bytes))
image.show()
Imagen generada
Puedes consultar más consejos y estilos de imagen en los documentos para desarrolladores de la API de Gemini, en los que hay más detalles disponibles sobre las puntuaciones, la metodología y la mejora del rendimiento, en el Apéndice D del informe técnico actualizado.
Tenemos muchas ganas de dar el primer paso para ampliar la disponibilidad de los modelos de medios generativos en la API de Gemini y planeamos ofrecer más modelos pronto para que los desarrolladores puedan unir los medios generativos y los modelos de lenguaje.