Hoy lanzamos una versión preliminar de Gemini 2.5 Flash a través de la API de Gemini en Google AI Studio y Vertex AI. Esta nueva versión, que se basa en el popular 2.0 Flash, ofrece una importante mejora en las capacidades de razonamiento, al tiempo que prioriza la velocidad y el costo. Gemini 2.5 Flash es nuestro primer modelo de razonamiento totalmente híbrido, que brinda a los desarrolladores la capacidad de activar o desactivar el pensamiento. El modelo también permite a los desarrolladores establecer presupuestos de pensamiento para encontrar la compensación correcta entre calidad, costo y latencia. Incluso con el pensamiento desactivado, los desarrolladores pueden mantener las velocidades rápidas de Flash 2.0 y mejorar el rendimiento.
Nuestros modelos de Gemini 2.5 son capaces de razonar a través de sus pensamientos antes de responder. En lugar de generar inmediatamente un resultado, el modelo puede realizar un proceso de “pensamiento” para comprender mejor la instrucción, desglosar tareas complejas y planificar una respuesta. En tareas complejas que requieren varios pasos de razonamiento (como resolver problemas matemáticos o analizar preguntas de investigación), el proceso de pensamiento permite que el modelo obtenga respuestas más precisas y completas. De hecho, Gemini 2.5 Flash funciona muy bien en Hard Prompts en LMArena, solo superado por la versión 2.5 Pro.
2.5 Flash continúa liderando como el modelo con la mejor relación precio-rendimiento.
Sabemos que los diferentes casos de uso tienen diferentes compensaciones en calidad, costo y latencia. Para brindar flexibilidad a los desarrolladores, habilitamos la posibilidad de establecer un presupuesto de pensamiento, que ofrece un control detallado de la cantidad máxima de tokens que un modelo puede generar mientras piensa. Un presupuesto más alto permite que el modelo razone aún más para mejorar la calidad. Sin embargo, es importante destacar que aunque el presupuesto establece un límite de pensamiento para Flash 2.5, el modelo no utiliza el presupuesto completo si la instrucción no lo requiere.
El modelo está entrenado para saber cuánto tiempo debe pensar para una instrucción determinada y, por lo tanto, decide automáticamente cuánto pensar en función de la complejidad de la tarea percibida.
Si deseas mantener el costo y la latencia más bajos, sin dejar de mejorar el rendimiento en comparación con Flash 2.0, establece el presupuesto de pensamiento en 0. También puedes establecer un presupuesto de tokens específicos para la fase de pensamiento utilizando un parámetro en la API o el control deslizante de Google AI Studio y Vertex AI. El presupuesto puede variar de 0 a 24,576 tokens para 2.5 Flash.
Las siguientes instrucciones demuestran cuánto razonamiento se puede utilizar en el modo predeterminado de Flash 2.5.
Ejemplo 1: “Gracias” en español.
Ejemplo 2: ¿Cuántas provincias tiene Canadá?
Ejemplo 1: Tiras dos dados. ¿Cuál es la probabilidad de que sumen 7?
Ejemplo 2: Mi gimnasio tiene horarios de recogida para el baloncesto entre las 9:00 p. m. y las 3:00 p. m. los lunes, miércoles y viernes, y entre las 2:00 p. m. y las 8:00 p. m. los martes y sábados. Si trabajo de 9 a 6 p. m., 5 días a la semana y quiero jugar 5 horas de baloncesto entre semana, crea un horario para que pueda hacerlo.
Ejemplo 1: Una viga en voladizo de longitud L = 3 m tiene una sección transversal rectangular (ancho b = 0.1 m, altura h = 0.2 m) y está hecha de acero (E = 200 GPa). Se somete a una carga uniformemente distribuida de w = 5 kN/m en toda su longitud y a una carga puntual de P = 10 kN en el extremo libre. Calcula el esfuerzo máximo de flexión (σ_máx.).
Ejemplo 2: Escribe una función evaluate_cells(celdas: Dict[str, str]) -> Dict[str, float]
que calcule los valores de las celdas de la hoja de cálculo.
Cada celda contiene:
"3"
)."=A1 + B1 * 2"
usando +
, -
, *
, /
y otras celdas.Requisitos:
*/
antes que +-
).ValueError("Cycle detected at <cell>")
.eval()
. Usar solo bibliotecas integradas.Ya está disponible Gemini 2.5 Flash con capacidades de pensamiento en versión preliminar a través de la API de Gemini en Google AI Studio y Vertex AI, y en un menú desplegable dedicado en la app de Gemini. Te animamos a experimentar con el parámetro thinking_budget
y a explorar cómo el razonamiento controlable puede ayudarte a resolver problemas más complejos.
from google import genai
client = genai.Client(api_key="GEMINI_API_KEY")
response = client.models.generate_content(
model="gemini-2.5-flash-preview-04-17",
contents="Tiras dos dados. ¿Cuál es la probabilidad de que sumen 7?",
config=genai.types.GenerateContentConfig(
thinking_config=genai.types.ThinkingConfig(
thinking_budget=1024
)
)
)
print(response.text)
Encuentra referencias detalladas de la API y guías de pensamiento en nuestros documentos para desarrolladores o comienza con los ejemplos de código de la guía de soluciones de Gemini.
Continuaremos mejorando Gema 2.5 Flash e implementaremos más mejoras próximamente, antes de que esté disponible para su uso general en producción completa.
*El modelo de precios se obtiene de Artificial Analysis y la documentación de la empresa.