22 resultados
31 DE JULIO DE 2025 / AI
Google introduces Veo 3 Fast, an optimized model for speed and price, along with new image-to-video capabilities for both Veo 3 and Veo 3 Fast, enabling developers to efficiently create high-quality video content from text or still images, with varying pricing based on the model and audio inclusion, now available in the Gemini API.
30 DE JULIO DE 2025 / Gemini
LangExtract is a new open-source Python library powered by Gemini models for extracting structured information from unstructured text, offering precise source grounding, reliable structured outputs using controlled generation, optimized long-context extraction, interactive visualization, and flexible LLM backend support.
17 DE JULIO DE 2025 / Gemini
Veo 3, el modelo de generación de video de IA de Google más reciente, ahora está disponible en versión preliminar pagada a través de la API de Gemini y Google AI Studio. Presentado en Google I/O 2025, Veo 3 puede generar tanto video como audio sincronizado, y puede incluir diálogos, sonidos de fondo e incluso ruidos de animales. Este modelo ofrece efectos visuales realistas, iluminación natural y física, con una sincronización de labios y un sonido precisos que coinciden con la acción en pantalla.
16 DE JULIO DE 2025 / AI
La función "logprobs" se introdujo oficialmente en la API de Gemini en Vertex AI. Proporciona información sobre la toma de decisiones del modelo al mostrar puntajes de probabilidad para tokens elegidos y alternativos. Esta guía paso a paso te mostrará cómo habilitar e interpretar esta función, y aplicarla a casos de uso poderosos, como la clasificación segura, el autocompletado dinámico y la evaluación cuantitativa de RAG.
14 DE JULIO DE 2025 / Gemini
El modelo de texto Gemini Embedding ahora está disponible de forma general en la API de Gemini y Vertex AI. Este versátil modelo se ha clasificado constantemente como el número 1 en el ranking multilingüe de MTEB desde su lanzamiento experimental en marzo, admite más de 100 idiomas, tiene una longitud máxima de token de entrada de 2,048 y tiene un precio de USD 0.15 por 1 millón de tokens de entrada.
10 DE JULIO DE 2025 / Gemini
GenAI Processors es una nueva biblioteca Python de código abierto de Google DeepMind diseñada para simplificar el desarrollo de aplicaciones de IA, especialmente aquellas que manejan entradas multimodales y requieren capacidad de respuesta en tiempo real, al proporcionar una interfaz de “procesador” coherente para todos los pasos, desde el manejo de entradas hasta el procesamiento de llamadas y salidas de modelos, para un encadenamiento sin interrupciones y una ejecución simultánea.
7 DE JULIO DE 2025 / Gemini
El nuevo modo por lotes en la API de Gemini está diseñado para cargas de trabajo de IA de alto rendimiento y no críticas para la latencia, simplificando los trabajos grandes mediante el manejo de la programación y el procesamiento, y haciendo que tareas como el análisis de datos, la creación masiva de contenido y la evaluación de modelos sean más rentables y escalables, para que los desarrolladores puedan procesar grandes volúmenes de datos de manera eficiente.
24 DE JUNIO DE 2025 / Gemini
Gemini 2.5 Pro y Flash están transformando la robótica a través de la mejora de la codificación, el razonamiento y las capacidades multimodales, incluida la comprensión espacial. Estos modelos se utilizan para la comprensión semántica de escenas, la generación de código para el control de robots y la creación de aplicaciones interactivas con la API Live, con un fuerte énfasis en las mejoras de seguridad y las aplicaciones comunitarias.
24 DE JUNIO DE 2025 / Gemini
Imagen 4, el modelo avanzado de texto a imagen de Google, ahora está disponible en versión preliminar pagada a través de la API de Gemini y Google AI Studio, y ofrece mejoras de calidad significativas, especialmente para la generación de texto dentro de las imágenes. La familia de Imagen 4 incluye Imagen 4 para tareas generales e Imagen 4 Ultra para una adherencia de alta precisión a las indicaciones, con todas las imágenes generadas con una marca de agua SynthID no visible.
28 DE MAYO DE 2025 / Gemini
El proyecto “Espejo Mágico” utiliza la API de Gemini, e incluye la API Live, la llamada a funciones y la conexión con la Búsqueda de Google, para crear una experiencia interactiva y dinámica, y demostrar el poder de los modelos de Gemini para generar imágenes, contar historias y brindar información en tiempo real a través de un objeto familiar.