Muitos usuários interagem com a IA generativa diariamente sem perceber o papel crucial das APIs subjacentes que tornam esses recursos poderosos acessíveis. As APIs desbloqueiam o poder da IA generativa ao disponibilizar modelos para agentes automatizados e usuários humanos. Processos de negócios complexos utilizados interna e externamente são criados pela conexão de várias APIs em fluxos de trabalho agênticos.
O Google Kubernetes Engine (GKE) Inference Gateway é uma extensão do GKE Gateway que fornece roteamento e balanceamento de carga otimizados para disponibilizar cargas de trabalho de inteligência artificial (IA) generativa. Ele simplifica a implantação, o gerenciamento e a observabilidade de cargas de trabalho de inferência de IA. O GKE Inference Gateway oferece:
Criticality
de disponibilização específica de modelo: o GKE Inference Gateway permite especificar a Criticality
de disponibilização de modelos de IA para priorizar solicitações sensíveis à latência em relação a jobs de inferência em lotes tolerantes à latência.A maioria dos clientes corporativos que usam o GKE Inference Gateway gostaria de proteger e otimizar suas cargas de trabalho agênticas/de IA. Eles querem publicar e monetizar suas APIs agênticas e, ao mesmo tempo, ter acesso aos recursos de governança de API de alta qualidade oferecidos pela Apigee como parte de sua estratégia de comercialização de APIs agênticas.
O GKE Inference Gateway resolve esse desafio com a introdução do recurso GCPTrafficExtension, permitindo que o GKE Gateway faça uma chamada "lateral" para um ponto de decisão de política (PDP) por meio do mecanismo de extensão de serviço (ou ext-proc).
O Apigee Operator for Kubernetes aproveita esse mecanismo de extensão de serviço para aplicar as políticas da Apigee ao tráfego de APIs que flui pelo GKE Inference Gateway. Essa integração perfeita fornece aos usuários do GKE Inference Gateway os benefícios de governança de APIs da Apigee.
O GKE Inference Gateway e o Apigee Operator for Kubernetes funcionam juntos com a execução das seguintes etapas:
A Apigee fornece uma camada abrangente de gerenciamento de APIs transacionais tradicionais e LLMs (modelos de linguagem grandes) no Google Cloud, em outras nuvens públicas e na infraestrutura no local. Essa plataforma oferece um poderoso mecanismo de políticas, gerenciamento de todo o ciclo de vida de APIs e análises avançadas baseadas em IA/ML. A Apigee é reconhecida como líder em gerenciamento de APIs no Quadrante Mágico do Gartner, atendendo grandes empresas com necessidades complexas de APIs.
Por meio dessa nova integração com o GKE Inference Gateway, os usuários do GKE podem utilizar todo o pacote de recursos da Apigee para gerenciar, governar e monetizar a carga de trabalho de IA por meio de APIs. Isso inclui a capacidade dos produtores de APIs de empacotar APIs em produtos de API disponíveis para desenvolvedores via portais de autoatendimento especializados. Os usuários também obtêm acesso aos serviços de valor agregado da Apigee, como segurança de API e análises detalhadas de API.
Com a integração, os usuários do GKE podem acessar políticas da Apigee que regem:
O Apigee Operator for Kubernetes usado nesta integração também dá suporte a regras de modelos de administração, permitindo que os administradores apliquem regras de políticas em toda a organização. Por exemplo, um administrador pode exigir que determinadas políticas sejam aplicadas a todas as APIs da organização ou especificar uma lista de políticas que não podem ser usadas com as APIs da organização.
Os planos futuros incluem o suporte às políticas de IA da Apigee que regem:
Ao aproveitar os avançados recursos de gerenciamento e segurança de APIs da Apigee por meio do GKE Inference Gateway, as empresas já podem unificar suas camadas de governança de APIs e disponibilização de IA. Com a plataforma de gerenciamento de APIs completa da Apigee à sua disposição, você pode se concentrar em sua missão principal: executar seu mecanismo de inferência no GKE para se beneficiar da melhor infraestrutura de IA disponível para nuvens públicas.