用于身份验证和 AI/大语言模型策略的 Apigee Operator for Kubernetes 与 GKE Inference Gateway 集成

2025年9月26日

没有 API,就没有 AI/智能体!

许多用户每天都在与生成式 AI 互动,却没有意识到底层 API 在向他们提供这些强大功能方面发挥的关键作用。API 通过向自动化智能体和人类用户提供模型,解锁了生成式 AI 的强大功能。内部和外部使用的复杂业务流程是通过在智能体工作流程中关联多个 API 构建的。

GKE Inference Gateway

Google Kubernetes Engine (GKE) Inference Gateway 是 GKE Gateway 的扩展程序,为生成式人工智能 (AI) 工作负载提供经过优化的路由和负载均衡。它简化了 AI 推理工作负载的部署、管理和观测。GKE Inference Gateway 提供以下优势:

  • 针对推理优化的负载均衡:GKE Inference Gateway 根据来自模型服务器的指标分配请求,以优化 AI 模型分发。
  • 动态 LoRA 微调模型分发:GKE Inference Gateway 支持在通用加速器上提供动态 LoRA(低秩适配)微调模型,通过多路复用减少分发模型所需的 GPU 和 TPU 数量。
  • 针对推理优化的自动扩缩:GKE Horizontal Pod Autoscaler (HPA) 可根据模型服务器指标自动扩缩。
  • 模型感知路由:Gateway 根据 OpenAI API 规范定义的模型名称,在 GKE 集群中路由推理请求。
  • 模型特有的分发 Criticality:GKE Inference Gateway 可让您指定 AI 模型的分发 Criticality,以优先处理对延迟敏感的请求,而非对延迟容忍度高的批量推理任务。
  • 集成的 AI 安全性:GKE Inference Gateway 与 Google Cloud Model Armor 集成,可对模型提示和响应执行 AI 安全检查。
  • 推理可观测性:GKE Inference Gateway 针对推理请求提供可观测性指标,例如请求速率、延迟时间、错误率和饱和度。

利用 GCPTrafficExtension

挑战赛

使用 GKE Inference Gateway 的大多数企业客户都希望能够在保障安全的同时,优化其智能体/AI 工作负载。他们不仅希望发布智能体 API 并实现创收,还希望借助 Apigee 所提供的高质量 API 治理功能,支持其智能体 API 商业化战略。

解决方法

GKE Inference Gateway 近期推出了 GCPTrafficExtension 资源,使 GKE Gateway 能通过服务扩展(或 ext-proc)机制,向策略决策点 (PDP) 进行“侧向”调用,解决了这一挑战。

Apigee Operator for Kubernetes 利用这一服务扩展机制,对流经 GKE Inference Gateway 的 API 流量强制执行 Apigee 策略。这一无缝集成为 GKE Inference Gateway 用户提供了 Apigee 的 API 治理优势。

通过以下步骤可实现 GKE Inference Gateway 与 Apigee Operator for Kubernetes 协同运作:

  • 配置 Apigee:GKE Inference Gateway 管理员在 Google Cloud 上配置 Apigee 实例。
  • 安装 Apigee Operator for Kubernetes:管理员在其 GKE 集群内安装 Apigee Operator for Kubernetes,并将其连接到新配置的 Apigee 实例。
  • 创建 ApigeeBackendService:创建 ApigeeBackendService 资源,该资源将用作 Apigee 数据平面的代理。
  • 应用 Traffic Extension:在 GCPTrafficExtension 中以 backendRef 的形式引用 ApigeeBackendService。
  • 强制执行策略:将 GCPTrafficExtension 应用于 GKE Inference Gateway,以允许 Apigee 对流经网关的 API 流量强制执行策略。
Apigee + GKE IG Diagram (2)

Apigee Operator for Kubernetes:适用于大语言模型的 API 管理方式

Apigee 为传统事务型 API 与大语言模型 (LLM) 提供了全面的 API 管理层,覆盖 Google Cloud、其他公有云及本地基础设施。该平台具备强大的策略引擎、完整的 API 生命周期管理,以及依托 AI/ML 的高级分析功能。Apigee 在 Gartner 魔力象限中获评 API 管理领域的领导者,服务于具有复杂 API 需求的大型企业。

利用与 GKE Inference Gateway 的全新集成,GKE 用户可以利用 Apigee 的完整功能套件,通过 API 来管理、治理其 AI 工作负载并实现创收。这包括以下功能:让 API 生产者能够将 API 打包为 API 产品,并通过开发者门户以自助服务的方式向开发者开放。同时,用户还能获得 Apigee 的增值服务,例如 API 安全保障与详细的 API 分析。

通过这一集成,GKE 用户可以访问治理以下方面的 Apigee 策略:

  • API 密钥
  • Quotas
  • 速率限制
  • Google 访问令牌
  • 键值存储
  • OpenAPI 规范验证
  • 流量峰值
  • 自定义 JavaScript
  • 响应缓存
  • 外部服务调用

此集成中使用的 Apigee Operator for Kubernetes 还支持“管理员模板规则”,使组织管理员能够在整个组织内强制执行策略规则。例如,组织管理员可以要求所有 API 必须应用某些策略,或者指定一个禁止用于组织 API 的策略列表。

未来还计划支持用于治理以下方面的 Apigee AI 策略:

  • Model Armor 安全性
  • 语义缓存
  • 令牌统计与强制执行
  • 基于提示的模型路由

没有 API,就没有 AI - 重述

通过 GKE Inference Gateway 利用 Apigee 出众的 API 管理与安全功能,企业现在可以统一其 AI 服务层与 API 治理层。借助 Apigee 功能全面的 API 管理平台,您可以专注于核心任务:在 GKE 上运行推理引擎,充分利用公有云中出色的 AI 基础设施。