Gemini 2.5 Flash Image 🍌, nuestro modelo de generación y edición de imágenes de última generación que capturó la imaginación del mundo, ya cuenta con disponibilidad general, se puede usar en entornos de producción e incluye nuevas características, como una variedad más amplia de relaciones de aspecto, además de la posibilidad de especificar la salida de imágenes únicamente.
Gemini 2.5 Flash Image permite a los usuarios combinar sin problemas múltiples imágenes, mantener la coherencia de los personajes para narrar historias más detalladas, realizar ediciones específicas con lenguaje natural y aprovechar el amplio conocimiento del mundo de Gemini para la generación y modificación de imágenes. Puedes acceder al modelo a través de la API de Gemini en Google AI Studio y en Vertex AI para uso empresarial.
Y para ofrecer aun más posibilidades creativas, el modelo ahora admite 10 relaciones de aspecto diferentes. De esta manera, puedes crear contenido sin esfuerzo en varios formatos, desde tomas horizontales cinematográficas hasta publicaciones verticales en las redes sociales.
Entre las relaciones admitidas, se incluyen las siguientes:
Cartwheel está aprovechando la IA para dejar atrás la “experiencia del usuario de tipo máquinas tragamonedas” que ofrecen muchos generadores de imágenes, y les brinda a los artistas el control directo para que puedan dar vida a su visión creativa. Después de meses de crear la función “Modo de pose” y descubrir en qué fallaban los otros modelos, el equipo encontró una solución en Gemini 2.5 Flash Image. Al combinar la herramienta de poses 3D de Cartwheel con Gemini 2.5 Flash Image, crearon un nuevo y poderoso sistema de creación de imágenes que ofrece un control y una coherencia de personajes sin precedentes.
“Otros modelos no podían representar personajes desde ángulos de cámara arbitrarios o mantener la fidelidad a una pose sin sacrificar el “conocimiento del mundo”. El nuevo modelo Gemini 2.5 Flash Image fue el primero que pudo proporcionar ambas funciones.” Andrew Carr, cofundador de Cartwheel
Link to Youtube Video (visible only when JS is disabled)
Volley, los creadores del juego de exploración de mazmorras impulsado por IA Wit's End, utilizan Gemini 2.5 Flash Image para generar y editar imágenes dentro de la sesión: retratos de personajes, imágenes fijas de escenas dinámicas, composiciones de múltiples personajes y ediciones iterativas rápidas de chat o voz.
“El modelo demuestra un seguimiento de reglas de orientación estética de avanzada, al tiempo que conserva la latencia por debajo de <10 segundos, con lo que permite desbloquear muchas aplicaciones en vivo. Por ejemplo, permite a los jugadores seleccionar estilos y refinar las salidas en bucles de varias vueltas”. - James Wilsterman, director de tecnología de Volley
Link to Youtube Video (visible only when JS is disabled)
Fue increíble ver toda la creatividad de la comunidad en acción durante los últimos hackatones con Kaggle y Cerebral Valley, donde hubo cientos de presentaciones en las que se mostraron las capacidades del modelo en diversos campos, como la educación de ciencia, tecnología, ingeniería y matemáticas; el material de marketing y la realidad aumentada en tiempo real.
Los desarrolladores pueden comenzar a compilar con Gemini 2.5 Flash Image hoy mismo. Consulta los documentos para desarrolladores y la guía de soluciones para obtener orientación sobre las nuevas funciones, incluidas las nuevas relaciones de aspecto y la capacidad de especificar la salida de solo imágenes. El modelo está disponible a través de la API de Gemini y para pruebas en Google AI Studio.
Crear con Gemini 2.5 Flash Image es fácil gracias al “modo de creación” de Google AI Studio. Crea y remezcla instantáneamente aplicaciones personalizadas impulsadas por IA a partir de una sola indicación, como “Crea una aplicación de edición de imágenes con filtros”. Cuando tengas todo listo, implementa tu creación directamente desde AI Studio o guarda el código en GitHub; todo esto es gratis. Prueba y remezcla algunas de nuestras aplicaciones de ejemplo:
Gemini 2.5 Flash Image tiene un precio de USD 0.039 por imagen, con una tarifa de USD 30.00 por 1 millón de tokens de salida. Los precios de otras modalidades de entrada y salida se alinean con los precios estándar de Gemini 2.5 Flash.
Este es un código de ejemplo que puedes usar para comenzar:
from google import genai
from google.genai import types
from PIL import Image
client = genai.Client()
prompt = "Crea una fotografía del sujeto de esta imagen como si viviera en la década de 1980. La fotografía debería capturar la moda, los peinados y la atmósfera general de la época."
image = Image.open('/path/to/image.png')
response = client.models.generate_content(
model="gemini-2.5-flash-image",
contents=[prompt, image],
config=types.GenerateContentConfig(
response_modalities=["IMAGE"],
image_config=types.ImageConfig(
aspect_ratio="16:9",
)
)
)
for part in response.parts:
if part.inline_data is not None:
generated_image = part.as_image()
generated_image.show()
Nos continúa sorprendiendo la creatividad de nuestra comunidad de desarrolladores. ¡Tenemos muchas ganas de ver tus próximas creaciones!