인증 및 AI/LLM 정책을 위한 Kubernetes용 Apigee Operator와 GKE Inference Gateway의 통합

2025년 9월 26일

API가 없으면 AI/에이전트도 없습니다!

많은 사용자가 매일 생성형 AI와 상호작용하면서도 이러한 강력한 기능에 액세스하는 데 기본 API가 얼마나 중요한 역할을 하는지 인지하지 못하고 있습니다. API는 자동화된 에이전트와 인간 사용자가 모두 모델을 사용할 수 있도록 함으로써 생성형 AI가 힘을 발휘하도록 합니다. 내부 및 외부적으로 활용되는 복잡한 비즈니스 프로세스는 에이전트 워크플로에서 여러 API를 연결하여 구축됩니다.

GKE Inference Gateway

GKE(Google Kubernetes Engine) Inference Gateway는 GKE Gateway의 확장 기능으로, 생성형 AI(인공지능) 워크로드를 제공하기 위한 최적화된 라우팅 및 부하 분산 기능을 제공합니다. AI 추론 워크로드의 배포, 관리, 관측 가능성을 간소화합니다. GKE Inference Gateway는 다음을 제공합니다.

  • 추론에 최적화된 부하 분산: GKE Inference Gateway는 모델 서버의 메트릭을 활용해 요청을 분산시켜 AI 모델 서비스가 최적화되도록 합니다.
  • 동적 LoRA 미세 조정 모델 제공: GKE Inference Gateway는 공통 가속기에서 동적 LoRA(Low-Rank Adaptation)로 미세 조정된 모델을 제공할 수 있게 지원하며, 멀티플렉싱을 통해 모델을 제공하는 데 필요한 GPU와 TPU의 수를 줄여줍니다.
  • 추론을 위해 최적화된 자동 확장: GKE HPA(수평형 포드 자동 확장 처리)는 모델 서버 메트릭을 사용하여 자동 확장합니다.
  • 모델 인식 라우팅: Gateway는 GKE 클러스터 내의 OpenAI API 사양에 정의된 모델 이름을 기반으로 추론 요청을 라우팅합니다.
  • 모델별 서비스 제공 Criticality: GKE Inference Gateway를 사용하면 AI 모델의 서비스 제공 Criticality, 즉 중요도를 지정할 수 있습니다. 이를 통해 지연 시간에 민감한 요청을 지연 시간에 여유가 있는 배치 추론 작업보다 우선 처리할 수 있습니다.
  • 통합 AI 안전성: GKE Inference Gateway는 Google Cloud Model Armor와 통합되어 AI 안전 확인을 모델 프롬프트 및 응답에 적용합니다.
  • 추론 관측 가능성: GKE Inference Gateway는 요청 속도, 지연 시간, 오류, 포화도와 같은 추론 요청에 대한 관측 가능성 메트릭을 제공합니다.

GCPTrafficExtension 활용

도전 과제

GKE Inference Gateway를 사용하는 대부분의 기업 고객은 에이전트/AI 워크로드를 보호하고 최적화하고자 합니다. 그들은 Agentic API 상용화 전략의 일환으로 Apigee가 제공하는 고품질의 API 거버넌스 기능에 액세스하는 동시에 Agentic API를 게시하고 수익을 창출하고 싶어 합니다.

해결 방법

GKE Inference Gateway는 GCPTrafficExtension 리소스를 도입해 이 문제를 해결하고, GKE Gateway가 서비스 확장 (또는 ext-proc) 메커니즘을 통해 정책 의사 결정 지점(PDP)에 '측면' 호출을 할 수 있도록 합니다.

Kubernetes용 Apigee Operator는 이 서비스 확장 메커니즘을 활용하여 GKE Inference Gateway를 통해 흐르는 API 트래픽에 Apigee 정책을 적용합니다. 이 원활한 통합을 통해 GKE Inference Gateway 사용자는 Apigee API 거버넌스의 이점을 누릴 수 있습니다.

GKE Inference Gateway와 Kubernetes용 Apigee Operator는 다음 단계를 거쳐 함께 작동합니다.

  • Provision Apigee: GKE Inference Gateway 관리자는 Google Cloud를 통해 Apigee 인스턴스를 프로비저닝합니다.
  • Kubernetes용 Apigee Operator 설치: 관리자는 Kubernetes용 Apigee Operator를 GKE 클러스터 내에 설치하고 새로 프로비저닝된 Apigee 인스턴스에 연결합니다.
  • ApigeeBackendService 생성: ApigeeBackendService 리소스가 생성됩니다. 이 리소스는 Apigee 데이터 평면의 프록시 역할을 합니다.
  • 트래픽 확장 적용: ApigeeBackendService는 GCPTrafficExtension 내에서 backendRef로 참조됩니다.
  • 정책 적용: GCPTrafficExtension은 GKE Inference Gateway에 적용되어 게이트웨이를 통해 흐르는 API 트래픽에 대해 Apigee가 정책을 적용할 수 있도록 합니다.
Apigee + GKE IG Diagram (2)

Kubernetes용 Apigee Operator: LLM을 위한 API 관리

Apigee는 Google Cloud, 기타 퍼블릭 클라우드, 온프레미스 인프라 전반에서 기존 트랜잭션 API 및 LLM(Large Language Model)을 위한 포괄적인 API 관리 레이어를 제공합니다. 이 플랫폼은 강력한 정책 엔진, 전체 API 수명 주기 관리, 고급 AI/ML 기반 분석을 제공합니다. Apigee는 Gartner Magic Quadrant에서 API 관리 분야의 리더로 인정받고 있으며 복잡한 API 요구 사항을 가진 대기업에 서비스를 제공하고 있습니다.

GKE Inference Gateway와의 이번 새로운 통합을 통해 GKE 사용자는 Apigee의 모든 기능을 활용하여 API를 통해 AI 워크로드를 관리, 운영, 수익화할 수 있습니다. 여기에는 API 제작자가 API를 API 제품으로 묶어, 개발자가 셀프서비스 개발자 포털을 통해 사용할 수 있도록 하는 기능도 포함됩니다. 또한 사용자는 API 보안 및 상세 API 분석과 같은 Apigee의 부가 가치 서비스도 사용할 수 있습니다.

이 통합을 통해 GKE 사용자는 다음에 적용되는 Apigee 정책에 액세스할 수 있습니다.

  • API 키
  • 할당량
  • 비율 제한
  • Google 액세스 토큰
  • 키 값 저장소
  • OpenAPI 사양 유효성 검사
  • 트래픽 급증
  • 사용자 설정 자바스크립트
  • 응답 캐싱
  • 외부 서비스 콜아웃

이 통합에 사용되는 Kubernetes용 Apigee Operator는 관리자 템플릿 규칙도 지원하므로, 조직 관리자가 조직 전체에 정책 규칙을 적용할 수 있습니다. 예를 들어, 조직 관리자는 특정 정책을 모든 API에 적용하도록 요구하거나 조직의 API와 함께 사용할 수 없는 정책 목록을 지정할 수 있습니다.

향후 계획에는 다음을 관장하는 Apigee AI 정책에 대한 지원이 포함됩니다.

  • Model Armor 보안
  • 시맨틱 캐싱
  • 토큰 카운팅 및 시행
  • 프롬프트 기반 모델 라우팅

다시 한번 더 강조합니다. API가 없으면 AI도 없습니다.

기업은 GKE Inference Gateway를 통해 Apigee의 동급 최고 API 관리 및 보안 기능을 활용함으로써 이제 AI 서비스와 API 거버넌스 레이어를 통합할 수 있습니다. Apigee의 모든 기능을 갖춘 API 관리 플랫폼을 마음껏 활용하여 GKE에서 추론 엔진을 실행하고 퍼블릭 클라우드에서 제공되는 동급 최고 수준의 AI 인프라를 활용하는 데 집중할 수 있습니다.