Integração do Apigee Operator for Kubernetes e do GKE Inference Gateway para políticas de autenticação e de IA/LLM

26 DE SETEMBRO DE 2025

Não há IA nem agentes sem APIs!

Muitos usuários interagem com a IA generativa diariamente sem perceber o papel crucial das APIs subjacentes que tornam esses recursos poderosos acessíveis. As APIs desbloqueiam o poder da IA generativa ao disponibilizar modelos para agentes automatizados e usuários humanos. Processos de negócios complexos utilizados interna e externamente são criados pela conexão de várias APIs em fluxos de trabalho agênticos.

GKE Inference Gateway

O Google Kubernetes Engine (GKE) Inference Gateway é uma extensão do GKE Gateway que fornece roteamento e balanceamento de carga otimizados para disponibilizar cargas de trabalho de inteligência artificial (IA) generativa. Ele simplifica a implantação, o gerenciamento e a observabilidade de cargas de trabalho de inferência de IA. O GKE Inference Gateway oferece:

  • Balanceamento de carga otimizado para inferência: o GKE Inference Gateway distribui solicitações para otimizar a disponibilização de modelos de IA usando métricas de servidores de modelos.
  • Disponibilização de modelos ajustados de LoRA dinâmica: o GKE Inference Gateway dá suporte à disponibilização de modelos ajustados de LoRA (adaptação de baixa classificação) dinâmica em um acelerador comum, reduzindo o número de GPUs e TPUs necessárias para disponibilizar modelos via multiplexação.
  • Escalonamento automático otimizado para inferência: o Escalonador automático horizontal de pods (HPA, na sigla em inglês) do GKE usa métricas de servidores de modelos para fazer o escalonamento automático.
  • Roteamento baseado em modelos: o Gateway roteia solicitações de inferência com base em nomes de modelos definidos nas especificações da API OpenAI no cluster do GKE.
  • Criticality de disponibilização específica de modelo: o GKE Inference Gateway permite especificar a Criticality de disponibilização de modelos de IA para priorizar solicitações sensíveis à latência em relação a jobs de inferência em lotes tolerantes à latência.
  • Segurança de IA integrada:: o GKE Inference Gateway é integrado ao Model Armor do Google Cloud para aplicar confirmações de segurança de IA a prompts e respostas de modelos.
  • Observabilidade de inferência: o GKE Inference Gateway fornece métricas de observabilidade para solicitações de inferência, como taxa de solicitações, latência, erros e saturação.

Utilização da GCPTrafficExtension

O desafio

A maioria dos clientes corporativos que usam o GKE Inference Gateway gostaria de proteger e otimizar suas cargas de trabalho agênticas/de IA. Eles querem publicar e monetizar suas APIs agênticas e, ao mesmo tempo, ter acesso aos recursos de governança de API de alta qualidade oferecidos pela Apigee como parte de sua estratégia de comercialização de APIs agênticas.

A solução

O GKE Inference Gateway resolve esse desafio com a introdução do recurso GCPTrafficExtension, permitindo que o GKE Gateway faça uma chamada "lateral" para um ponto de decisão de política (PDP) por meio do mecanismo de extensão de serviço (ou ext-proc).

O Apigee Operator for Kubernetes aproveita esse mecanismo de extensão de serviço para aplicar as políticas da Apigee ao tráfego de APIs que flui pelo GKE Inference Gateway. Essa integração perfeita fornece aos usuários do GKE Inference Gateway os benefícios de governança de APIs da Apigee.

O GKE Inference Gateway e o Apigee Operator for Kubernetes funcionam juntos com a execução das seguintes etapas:

  • Provisione a Apigee: o administrador do GKE Inference Gateway provisiona uma instância da Apigee no Google Cloud.
  • Instale o Apigee Operator for Kubernetes: o administrador instala o Apigee Operator for Kubernetes em seu cluster do GKE e o conecta à instância da Apigee que foi provisionada.
  • Crie um ApigeeBackendService: é criado um recurso ApigeeBackendService. Ele atua como um proxy para o dataplane da Apigee.
  • Aplique a extensão de tráfego: o ApigeeBackendService é, então, referenciado como backendRef em uma GCPTrafficExtension.
  • Aplique políticas: a GCPTrafficExtension é aplicada ao GKE Inference Gateway, permitindo que a Apigee aplique políticas ao tráfego de APIs que flui pelo gateway.
Apigee + GKE IG Diagram (2)

Apigee Operator for Kubernetes: gerenciamento de APIs para LLMs

A Apigee fornece uma camada abrangente de gerenciamento de APIs transacionais tradicionais e LLMs (modelos de linguagem grandes) no Google Cloud, em outras nuvens públicas e na infraestrutura no local. Essa plataforma oferece um poderoso mecanismo de políticas, gerenciamento de todo o ciclo de vida de APIs e análises avançadas baseadas em IA/ML. A Apigee é reconhecida como líder em gerenciamento de APIs no Quadrante Mágico do Gartner, atendendo grandes empresas com necessidades complexas de APIs.

Por meio dessa nova integração com o GKE Inference Gateway, os usuários do GKE podem utilizar todo o pacote de recursos da Apigee para gerenciar, governar e monetizar a carga de trabalho de IA por meio de APIs. Isso inclui a capacidade dos produtores de APIs de empacotar APIs em produtos de API disponíveis para desenvolvedores via portais de autoatendimento especializados. Os usuários também obtêm acesso aos serviços de valor agregado da Apigee, como segurança de API e análises detalhadas de API.

Com a integração, os usuários do GKE podem acessar políticas da Apigee que regem:

  • Chaves de API
  • Cotas
  • Limitação de taxa
  • Tokens de acesso do Google
  • Armazenamentos de valores de chaves
  • Validação de especificação OpenAPI
  • Picos de tráfego
  • JavaScript personalizado
  • Armazenamento de respostas em cache
  • Chamadas de serviços externos

O Apigee Operator for Kubernetes usado nesta integração também dá suporte a regras de modelos de administração, permitindo que os administradores apliquem regras de políticas em toda a organização. Por exemplo, um administrador pode exigir que determinadas políticas sejam aplicadas a todas as APIs da organização ou especificar uma lista de políticas que não podem ser usadas com as APIs da organização.

Os planos futuros incluem o suporte às políticas de IA da Apigee que regem:

  • Segurança do Model Armor
  • Armazenamento semântico em cache
  • Contagem e aplicação obrigatória de tokens
  • Roteamento de modelos baseado em prompts

Não há IA sem APIs – Reprise

Ao aproveitar os avançados recursos de gerenciamento e segurança de APIs da Apigee por meio do GKE Inference Gateway, as empresas já podem unificar suas camadas de governança de APIs e disponibilização de IA. Com a plataforma de gerenciamento de APIs completa da Apigee à sua disposição, você pode se concentrar em sua missão principal: executar seu mecanismo de inferência no GKE para se beneficiar da melhor infraestrutura de IA disponível para nuvens públicas.