Operador de Apigee para Kubernetes e integración de puerta de enlace de inferencia de GKE para autenticación y políticas de IA/LLM

26 DE SEPTIEMBRE DE 2025

No hay IA ni agentes sin APIs

Muchos usuarios interactúan con la IA generativa a diario sin darse cuenta del rol crucial de las APIs subyacentes para hacer que se pueda acceder a estas potentes capacidades. Las APIs desbloquean el poder de la IA generativa al hacer que los modelos estén disponibles tanto para los agentes automatizados como para los usuarios humanos. Los procesos empresariales complejos aprovechados interna y externamente se construyen conectando múltiples APIs en flujos de trabajo agénticos.

Puerta de enlace de inferencia de GKE

La puerta de enlace de inferencia de Google Kubernetes Engine (GKE) es una extensión de la puerta de enlace de GKE que proporciona enrutamiento y balanceo de carga optimizados para atender cargas de trabajo generativas de inteligencia artificial (IA). Además, simplifica la implementación, la gestión y la observabilidad de las cargas de trabajo de inferencia de IA. La puerta de enlace de inferencia de GKE ofrece:

Balanceo de carga optimizado para inferencia: La puerta de enlace de inferencia de GKE distribuye las solicitudes para optimizar el servicio del modelo de IA utilizando las métricas de los servidores de modelo.
Servicio de modelo dinámico de LoRA ajustado: La puerta de enlace de inferencia de GKE admite el servicio de modelos dinámicos de LoRA (adaptación de bajo rango) ajustados en un acelerador común, lo que reduce el número de GPU y TPU necesarias para servir a los modelos a través de la multiplexación.
Autoescalado optimizado para inferencia: El ajuste de escala automático horizontal de Pods (HPA) de GKE utiliza métricas de servidor de modelo para autoescalar.
Enrutamiento consciente del modelo: La puerta de enlace enruta las solicitudes de inferencia en función de los nombres de modelo definidos en las especificaciones de la API de OpenAI dentro de tu clúster de GKE.
Procesamiento de servicio específico del modelo Criticality: La puerta de enlace de inferencia de GKE te permite especificar la Criticality de servicio de los modelos de IA para priorizar las solicitudes sensibles a la latencia sobre los trabajos de inferencia por lotes que la toleran.
Seguridad de IA integrada: La puerta de enlace de inferencia de GKE se integra con Model Armor de Google Cloud para aplicar comprobaciones de seguridad de IA a las indicaciones y respuestas del modelo.
Observabilidad de inferencia: La puerta de enlace de inferencia de GKE proporciona métricas de observabilidad para solicitudes de inferencia, como la tasa de solicitudes, la latencia, los errores y la saturación.

Aprovecha la GCPTrafficExtension

El desafío

A la mayoría de los clientes empresariales que utilizan la puerta de enlace de inferencia de GKE les gustaría proteger y optimizar sus cargas de trabajo agénticas y de IA. Quieren publicar y monetizar sus APIs agénticas mientras acceden a las funciones de gobernanza de API de alta calidad que ofrece Apigee como parte de su estrategia de comercialización de APIs agénticas.

La solución

La puerta de enlace de inferencia de GKE resuelve este desafío mediante la introducción del recurso GCPTrafficExtension, que permite a la puerta de enlace de GKE realizar una llamada “lateral” a un punto de aplicación forzosa de políticas (PDP) a través del mecanismo de extensión de servicios (o de procesamiento externo).

El operador de Apigee para Kubernetes aprovecha este mecanismo de extensión de servicio para hacer cumplir las políticas de Apigee sobre el tráfico de API que fluye a través de la puerta de enlace de inferencia de GKE. Esta integración perfecta brinda a los usuarios de la puerta de enlace de inferencia de GKE los beneficios de la gobernanza de la API de Apigee.

La puerta de enlace de inferencia de GKE y el operador de Apigee para Kubernetes trabajan juntos a través de los siguientes pasos:

Aprovisionamiento de Apigee: El administrador de la puerta de enlace de inferencia proporciona una instancia de Apigee en Google Cloud.
Instalación del operador de Apigee para Kubernetes: El administrador instala el operador de Apigee para Kubernetes en su clúster de GKE y lo conecta a la instancia de Apigee recién aprovisionada.
Creación de un ApigeeBackendService: Se crea un recurso ApigeeBackendService. Este recurso actúa como un proxy para el plano de datos de Apigee.
Aplicación de la extensión de tráfico: El ApigeeBackendService se denomina backendRef dentro de una GCPTrafficExtension.
Cumplimiento de políticas: La GCPTrafficExtension se aplica a la puerta de enlace de inferencia de GKE, lo que permite a Apigee hacer cumplir las políticas sobre el tráfico de API que fluye a través de la puerta de enlace.

Operador de Apigee para Kubernetes: gestión de API para LLM

Apigee proporciona una capa de administración de API integral para APIs transaccionales tradicionales y modelos de lenguaje grandes (LLM) en Google Cloud, otras nubes públicas e infraestructura local. Esta plataforma ofrece un potente motor de políticas, una gestión completa del ciclo de vida de la API y análisis avanzados basados de IA/ML. Apigee es reconocido como líder en gestión de API en el Cuadrante Mágico de Gartner y sirve a grandes empresas con necesidades complejas de API.

A través de esta nueva integración con la puerta de enlace de inferencia de GKE, los usuarios de GKE pueden aprovechar el conjunto completo de funciones de Apigee para administrar, gobernar y monetizar su carga de trabajo de IA a través de APIs. Esto incluye la capacidad de los productores de API para empaquetar APIs en productos de API disponibles para los desarrolladores a través de portales de desarrollo de autoservicio. Los usuarios también obtienen acceso a los servicios de valor agregado de Apigee, como la seguridad de API y el análisis detallado de API.

Con la integración, los usuarios de GKE pueden acceder a las políticas de Apigee que rigen:

Claves de API
Cuotas
Límites de frecuencia
Tokens de acceso de Google
Almacenes de clave-valor
Validaciones de especificaciones de OpenAPI
Picos de tráfico
Javascript personalizados
Almacenamiento de respuestas en caché
Llamadas de servicios externos

El operador de Apigee para Kubernetes utilizado en esta integración también admite reglas de plantilla de administrador, lo que permite a los administradores de la organización hacer cumplir las reglas de políticas en toda su organización. Por ejemplo, un administrador de una organización puede exigir que se apliquen ciertas políticas a todas las APIs o especificar una lista de políticas que no se pueden usar con las APIs de la organización.

Los planes futuros incluyen el apoyo a las políticas de la IA de Apigee que rigen:

La seguridad de Model Armor
El almacenamiento semántico en caché
El conteo y la aplicación de tokens
El enrutamiento de modelos basado en instrucciones

No hay IA sin APIs (bis)

Al aprovechar las mejores capacidades de administración y seguridad de API de Apigee a través de la puerta de enlace de inferencia de GKE, las empresas ahora pueden unificar sus capas de servicio de IA y de gobierno de API. Con la plataforma de administración de API con todas las funciones de Apigee a tu disposición, puedes concentrarte en la misión principal: ejecutar el motor de inferencia en GKE para aprovechar la mejor infraestructura de IA disponible en las nubes públicas.

publicado en: