Comienza a compilar con Gema 2.5 Flash

17 DE ABRIL DE 2025

Tulsee Doshi Director of Product Management Gemini

Hoy lanzamos una versión preliminar de Gemini 2.5 Flash a través de la API de Gemini en Google AI Studio y Vertex AI. Esta nueva versión, que se basa en el popular 2.0 Flash, ofrece una importante mejora en las capacidades de razonamiento, al tiempo que prioriza la velocidad y el costo. Gemini 2.5 Flash es nuestro primer modelo de razonamiento totalmente híbrido, que brinda a los desarrolladores la capacidad de activar o desactivar el pensamiento. El modelo también permite a los desarrolladores establecer presupuestos de pensamiento para encontrar la compensación correcta entre calidad, costo y latencia. Incluso con el pensamiento desactivado, los desarrolladores pueden mantener las velocidades rápidas de Flash 2.0 y mejorar el rendimiento.

Nuestros modelos de Gemini 2.5 son capaces de razonar a través de sus pensamientos antes de responder. En lugar de generar inmediatamente un resultado, el modelo puede realizar un proceso de “pensamiento” para comprender mejor la instrucción, desglosar tareas complejas y planificar una respuesta. En tareas complejas que requieren varios pasos de razonamiento (como resolver problemas matemáticos o analizar preguntas de investigación), el proceso de pensamiento permite que el modelo obtenga respuestas más precisas y completas. De hecho, Gemini 2.5 Flash funciona muy bien en Hard Prompts en LMArena, solo superado por la versión 2.5 Pro.

Comparison table showing price and performance metrics for LLMs

2.5 Flash tiene métricas comparables con las de otros modelos líderes por una fracción del costo y el tamaño.

Nuestro modelo de pensamiento más rentable

2.5 Flash continúa liderando como el modelo con la mejor relación precio-rendimiento.

A graph showing Gemini 2.5 Flash price-to-performance comparison

Gema 2.5 Flash agrega otro modelo a la inmejorable relación de costo-calidad de Google*.

Controles detallados para gestionar el pensamiento

Sabemos que los diferentes casos de uso tienen diferentes compensaciones en calidad, costo y latencia. Para brindar flexibilidad a los desarrolladores, habilitamos la posibilidad de establecer un presupuesto de pensamiento, que ofrece un control detallado de la cantidad máxima de tokens que un modelo puede generar mientras piensa. Un presupuesto más alto permite que el modelo razone aún más para mejorar la calidad. Sin embargo, es importante destacar que aunque el presupuesto establece un límite de pensamiento para Flash 2.5, el modelo no utiliza el presupuesto completo si la instrucción no lo requiere.

Plot graphs show improvements in reasoning quality as thinking budget increases

La calidad del razonamiento mejora a medida que aumenta el presupuesto de pensamiento.

El modelo está entrenado para saber cuánto tiempo debe pensar para una instrucción determinada y, por lo tanto, decide automáticamente cuánto pensar en función de la complejidad de la tarea percibida.

Si deseas mantener el costo y la latencia más bajos, sin dejar de mejorar el rendimiento en comparación con Flash 2.0, establece el presupuesto de pensamiento en 0. También puedes establecer un presupuesto de tokens específicos para la fase de pensamiento utilizando un parámetro en la API o el control deslizante de Google AI Studio y Vertex AI. El presupuesto puede variar de 0 a 24,576 tokens para 2.5 Flash.

Las siguientes instrucciones demuestran cuánto razonamiento se puede utilizar en el modo predeterminado de Flash 2.5.

Instrucciones que requieren poco razonamiento:

Ejemplo 1: “Gracias” en español.

Ejemplo 2: ¿Cuántas provincias tiene Canadá?

Instrucciones que requieren razonamiento medio:

Ejemplo 1: Tiras dos dados. ¿Cuál es la probabilidad de que sumen 7?

Ejemplo 2: Mi gimnasio tiene horarios de recogida para el baloncesto entre las 9:00 p. m. y las 3:00 p. m. los lunes, miércoles y viernes, y entre las 2:00 p. m. y las 8:00 p. m. los martes y sábados. Si trabajo de 9 a 6 p. m., 5 días a la semana y quiero jugar 5 horas de baloncesto entre semana, crea un horario para que pueda hacerlo.

Instrucciones que requieren razonamiento alto:

Ejemplo 1: Una viga en voladizo de longitud L = 3 m tiene una sección transversal rectangular (ancho b = 0.1 m, altura h = 0.2 m) y está hecha de acero (E = 200 GPa). Se somete a una carga uniformemente distribuida de w = 5 kN/m en toda su longitud y a una carga puntual de P = 10 kN en el extremo libre. Calcula el esfuerzo máximo de flexión (σ_máx.).

Ejemplo 2: Escribe una función evaluate_cells(celdas: Dict[str, str]) -> Dict[str, float] que calcule los valores de las celdas de la hoja de cálculo.

Cada celda contiene:

Un número (p. ej., "3").

O una fórmula como "=A1 + B1 * 2" usando +, -, *, / y otras celdas.

Requisitos:

Resolver las dependencias entre celdas.

Procesar la precedencia del operador (*/ antes que +-).

Detectar ciclos y elevar ValueError("Cycle detected at <cell>").

No utilizar eval(). Usar solo bibliotecas integradas.

Comienza hoy a compilar con Gema 2.5 Flash

Ya está disponible Gemini 2.5 Flash con capacidades de pensamiento en versión preliminar a través de la API de Gemini en Google AI Studio y Vertex AI, y en un menú desplegable dedicado en la app de Gemini. Te animamos a experimentar con el parámetro thinking_budget y a explorar cómo el razonamiento controlable puede ayudarte a resolver problemas más complejos.

from google import genai
 
client = genai.Client(api_key="GEMINI_API_KEY")
 
response = client.models.generate_content(
  model="gemini-2.5-flash-preview-04-17",
  contents="Tiras dos dados. ¿Cuál es la probabilidad de que sumen 7?",
  config=genai.types.GenerateContentConfig(
    thinking_config=genai.types.ThinkingConfig(
      thinking_budget=1024
    )
  )
)
 
print(response.text)

Python

Encuentra referencias detalladas de la API y guías de pensamiento en nuestros documentos para desarrolladores o comienza con los ejemplos de código de la guía de soluciones de Gemini.

Continuaremos mejorando Gema 2.5 Flash e implementaremos más mejoras próximamente, antes de que esté disponible para su uso general en producción completa.

^*_{^{El modelo de precios se obtiene de Artificial Analysis y la documentación de la empresa.}}

Publicaciones relacionadas

Gemini AI Cloud Announcements

Gemini CLI + VS Code: Native diffing and context-aware workflows

13 DE AGOSTO DE 2025

Gemini AI Announcements

Presentamos LangExtract: una biblioteca de extracción de información impulsada por Gemini

30 DE JULIO DE 2025

Gemma AI Announcements

Introducing Gemma 3 270M: The compact model for hyper-efficient AI

14 DE AGOSTO DE 2025