许多用户每天都在与生成式 AI 互动,却没有意识到底层 API 在向他们提供这些强大功能方面发挥的关键作用。API 通过向自动化智能体和人类用户提供模型,解锁了生成式 AI 的强大功能。内部和外部使用的复杂业务流程是通过在智能体工作流程中关联多个 API 构建的。
Google Kubernetes Engine (GKE) Inference Gateway 是 GKE Gateway 的扩展程序,为生成式人工智能 (AI) 工作负载提供经过优化的路由和负载均衡。它简化了 AI 推理工作负载的部署、管理和观测。GKE Inference Gateway 提供以下优势:
Criticality
:GKE Inference Gateway 可让您指定 AI 模型的分发 Criticality
,以优先处理对延迟敏感的请求,而非对延迟容忍度高的批量推理任务。使用 GKE Inference Gateway 的大多数企业客户都希望能够在保障安全的同时,优化其智能体/AI 工作负载。他们不仅希望发布智能体 API 并实现创收,还希望借助 Apigee 所提供的高质量 API 治理功能,支持其智能体 API 商业化战略。
GKE Inference Gateway 近期推出了 GCPTrafficExtension 资源,使 GKE Gateway 能通过服务扩展(或 ext-proc)机制,向策略决策点 (PDP) 进行“侧向”调用,解决了这一挑战。
Apigee Operator for Kubernetes 利用这一服务扩展机制,对流经 GKE Inference Gateway 的 API 流量强制执行 Apigee 策略。这一无缝集成为 GKE Inference Gateway 用户提供了 Apigee 的 API 治理优势。
通过以下步骤可实现 GKE Inference Gateway 与 Apigee Operator for Kubernetes 协同运作:
Apigee 为传统事务型 API 与大语言模型 (LLM) 提供了全面的 API 管理层,覆盖 Google Cloud、其他公有云及本地基础设施。该平台具备强大的策略引擎、完整的 API 生命周期管理,以及依托 AI/ML 的高级分析功能。Apigee 在 Gartner 魔力象限中获评 API 管理领域的领导者,服务于具有复杂 API 需求的大型企业。
利用与 GKE Inference Gateway 的全新集成,GKE 用户可以利用 Apigee 的完整功能套件,通过 API 来管理、治理其 AI 工作负载并实现创收。这包括以下功能:让 API 生产者能够将 API 打包为 API 产品,并通过开发者门户以自助服务的方式向开发者开放。同时,用户还能获得 Apigee 的增值服务,例如 API 安全保障与详细的 API 分析。
通过这一集成,GKE 用户可以访问治理以下方面的 Apigee 策略:
此集成中使用的 Apigee Operator for Kubernetes 还支持“管理员模板规则”,使组织管理员能够在整个组织内强制执行策略规则。例如,组织管理员可以要求所有 API 必须应用某些策略,或者指定一个禁止用于组织 API 的策略列表。
未来还计划支持用于治理以下方面的 Apigee AI 策略:
通过 GKE Inference Gateway 利用 Apigee 出众的 API 管理与安全功能,企业现在可以统一其 AI 服务层与 API 治理层。借助 Apigee 功能全面的 API 管理平台,您可以专注于核心任务:在 GKE 上运行推理引擎,充分利用公有云中出色的 AI 基础设施。