23 结果
2025年8月15日 / Google AI Studio
Google announces the general availability of Imagen 4, its advanced text-to-image model, in the Gemini API and Google AI Studio, featuring significant improvements in text rendering. The new Imagen 4 Fast model, designed for speed and rapid image generation, is now available alongside Imagen 4 and Imagen 4 Ultra, with Imagen 4 and Imagen 4 Ultra also supporting up to 2K resolution image generation.
2025年7月31日 / AI
Google 推出了 Veo 3 Fast,这是一款在速度和价格上都经过优化的模型。同时,Veo 3 和 Veo 3 Fast 都新增了图像转视频功能,使开发者能够高效地通过文本或静态图像创建高质量的视频内容。价格根据所选模型及是否包含音频而有所不同,目前该功能已上线 Gemini API。
2025年7月30日 / Gemini
LangExtract 是一个新的开源 Python 库,由 Gemini 模型提供支持,用于从非结构化文本中提取结构化信息。该库具备精准的来源定位能力、基于受控生成的可靠结构化输出、优化的长上下文提取能力、交互式可视化功能,以及灵活的 LLM 后端支持。
2025年7月17日 / Gemini
Veo 3 是 Google 推出的最新 AI 视频生成模型,现可通过 Gemini API 和 Google AI Studio 提供付费预览版。在 2025 年 Google I/O 大会上,我们公布了 Veo 3,它能生成视频和同步音频,并加入对话、背景声音,甚至动物叫声。此模型能够呈现逼真的视觉画面、自然的光线效果和物理特性,还能精准同步口型并实现屏幕动作与音效完美匹配。
2025年7月16日 / AI
Vertex AI 现已为 Gemini API 正式推出 logprobs 功能。该功能通过展示模型所选 token 及其替代 token 的概率分数,深入揭示了模型的决策过程。本分步指南将详细介绍如何启用和解读此功能,并将其应用于强大的用例,例如:置信度分类、动态自动补全以及 RAG 的定量评估。
2025年7月14日 / Gemini
Gemini Embedding 文本模型现已在 Gemini API 和 Vertex AI 中正式发布。自 3 月份推出实验性版本以来,这款功能强大的模型一直稳居 MTEB 多语言排行榜榜首,支持超过 100 种语言,最大输入令牌长度为 2048,每 100 万个输入令牌的价格为 0.15 美元。
2025年7月10日 / Gemini
GenAI Processors 是 Google DeepMind 推出的一个全新开源 Python 库,旨在为从输入处理到模型调用和输出处理之间的所有步骤提供一致的“Processor”接口,以实现无缝链接和并发执行,从而简化 AI 应用的开发,特别是那些用于处理多模态输入且需要实时响应的应用。
2025年7月7日 / Gemini
Gemini API 新推出的批量模式专为高吞吐量、对延迟时间不敏感的 AI 负载而设计,通过执行调度和处理来简化大型作业,并使数据分析、批量内容创建和模型评估等任务更具成本效益和可扩展性,从而让开发者能高效地处理大量数据。
2025年6月24日 / Gemini
Gemini 2.5 Pro 和 Flash 正在通过增强编码、推理以及包括空间理解在内的多模态能力,推动机器人技术的变革。这些模型将用于理解语义场景、生成机器人控制代码,以及使用 Live API 构建交互式应用。同时,这些模型也高度重视安全性提升与社区应用。
2025年6月24日 / Gemini
您现可通过 Gemini API 和 Google AI Studio 付费预览 Imagen 4,这是 Google 的先进文本转图像模型,可显著提高生成质量,尤其是在图像中的生成文本时。Imagen 4 系列模型包括用于一般任务的 Imagen 4 和具备极高提示遵循性的 Imagen 4 Ultra。该系列模型生成的所有图像均具有不可见的 SynthID 水印。