Integrasi Operator Apigee untuk Kubernetes dan GKE Inference Gateway untuk Auth dan kebijakan AI/LLM

26 SEP. 2025

Tidak ada AI/Agen tanpa API!

Banyak pengguna berinteraksi dengan AI generatif setiap hari tanpa menyadari peran penting API yang mendasarinya sehingga kemampuan canggih ini dapat diakses. API membuka kekuatan AI generatif dengan menyediakan model untuk agen otomatis dan pengguna manusia. Proses bisnis kompleks yang dimanfaatkan secara internal dan eksternal dibangun dengan menghubungkan beberapa API dalam alur kerja agentik.

GKE Inference Gateway

Google Kubernetes Engine (GKE) Inference Gateway adalah ekstensi untuk GKE Gateway yang menyediakan pemilihan rute dan load balancing yang dioptimalkan untuk melayani beban kerja Kecerdasan Buatan (AI) generatif. Gateway ini menyederhanakan deployment, pengelolaan, dan kemampuan observasi beban kerja inferensi AI. GKE Inference Gateway menawarkan:

Load balancing yang dioptimalkan untuk inferensi: GKE Inference Gateway mendistribusikan permintaan untuk mengoptimalkan penayangan model AI menggunakan metrik dari server model.
Penayangan model yang disesuaikan LoRA dinamis: GKE Inference Gateway mendukung penayangan model yang disesuaikan LoRA (Low-Rank Adaptation) dinamis pada akselerator umum, mengurangi jumlah GPU dan TPU yang diperlukan untuk menayangkan model melalui multiplexing.
Penskalaan otomatis yang dioptimalkan untuk inferensi: GKE Horizontal Pod Autoscaler (HPA) menggunakan metrik server model untuk melakukan penskalaan otomatis.
Pemilihan rute yang sadar model: Gateway merutekan permintaan inferensi berdasarkan nama model yang ditentukan dalam spesifikasi API OpenAI dalam cluster GKE Anda.
Penayangan khusus model Criticality: GKE Inference Gateway memungkinkan Anda menentukan penayangan Criticality model AI untuk memprioritaskan permintaan yang sensitif terhadap latensi di atas tugas inferensi batch yang tahan latensi.
Keamanan AI terintegrasi: GKE Inference Gateway terintegrasi dengan Google Cloud Model Armor untuk menerapkan pemeriksaan keamanan AI pada prompt dan respons model.
Kemampuan observasi inferensi: GKE Inference Gateway menyediakan metrik kemampuan observasi untuk permintaan inferensi, seperti tingkat permintaan, latensi, error, dan saturasi.

Memanfaatkan GCPTrafficExtension

Tantangan

Sebagian besar pelanggan perusahaan yang menggunakan GKE Inference Gateway ingin mengamankan dan mengoptimalkan beban kerja agentik/AI. Mereka ingin memublikasikan dan memonetisasi Agentic API mereka, sekaligus mengakses fitur tata kelola API berkualitas tinggi yang ditawarkan oleh Apigee sebagai bagian dari strategi komersialisasi Agentic API mereka.

Solusi

GKE Inference Gateway memecahkan tantangan ini melalui pengenalan sumber daya GCPTrafficExtension, yang memungkinkan GKE Gateway melakukan panggilan “sideways” ke policy decision point (PDP) melalui mekanisme ekstensi layanan (atau ext-proc).

Operator Apigee untuk Kubernetes memanfaatkan mekanisme ekstensi layanan ini untuk menerapkan kebijakan Apigee pada traffic API yang mengalir melalui GKE Inference Gateway. Integrasi yang mulus ini memberikan pengguna GKE Inference Gateway manfaat dari tata kelola API Apigee.

GKE Inference Gateway dan Operator Apigee untuk Kubernetes bekerja bersama melalui langkah-langkah berikut:

Penyediaan Apigee: Administrator GKE Inference Gateway menyediakan instance Apigee di Google Cloud.
Instal Operator Apigee untuk Kubernetes: Administrator menginstal Operator Apigee untuk Kubernetes di dalam cluster GKE mereka dan menghubungkannya ke instance Apigee yang baru saja disediakan.
Buat ApigeeBackendService: Sumber daya ApigeeBackendService dibuat. Sumber daya ini bertindak sebagai proxy untuk dataplane Apigee.
Aplikasikan Ekstensi Traffic: ApigeeBackendService kemudian direferensikan sebagai backendRef dalam GCPTrafficExtension.
Terapkan Kebijakan: GCPTrafficExtension diaplikasikan ke GKE Inference Gateway, yang memungkinkan Apigee menerapkan kebijakan pada traffic API yang mengalir melalui gateway.

Operator Apigee untuk Kubernetes: Pengelolaan API untuk LLM

Apigee menyediakan lapisan pengelolaan API yang komprehensif untuk API transaksional tradisional dan Model Bahasa Besar (LLM) di Google Cloud, cloud publik lainnya, dan infrastruktur lokal. Platform ini menawarkan engine kebijakan yang kuat, pengelolaan siklus proses API secara penuh, dan analisis berteknologi AI/ML lanjutan. Apigee diakui sebagai Pemimpin untuk pengelolaan API di Gartner Magic Quadrant, melayani perusahaan besar dengan kebutuhan API yang kompleks.

Melalui integrasi baru dengan GKE Inference Gateway ini, pengguna GKE bisa memanfaatkan rangkaian lengkap fitur Apigee untuk mengelola, mengatur, dan memonetisasi beban kerja AI mereka melalui API. Ini termasuk kemampuan bagi pembuat API untuk memaketkan API ke dalam Produk API yang tersedia bagi developer melalui portal developer swalayan. Pengguna juga mendapatkan akses ke layanan bernilai tambah Apigee, seperti keamanan API dan analisis API yang terperinci.

Dengan integrasi ini, pengguna GKE bisa mengakses kebijakan Apigee yang mengatur:

Kunci API
Kuota
Pembatasan kapasitas
Token akses Google
Penyimpanan nilai kunci
Validasi spesifikasi OpenAPI
Lonjakan traffic
Javascript khusus
Caching respons
Panggilan layanan eksternal

Operator Apigee untuk Kubernetes yang digunakan dalam integrasi ini juga mendukung aturan template admin, sehingga administrator organisasi bisa menerapkan aturan kebijakan di seluruh organisasinya. Misalnya, admin organisasi dapat mewajibkan kebijakan tertentu agar diterapkan pada semua API, atau menentukan daftar kebijakan yang tidak bisa digunakan dengan API organisasi.

Rencana mendatang termasuk dukungan untuk kebijakan Apigee AI yang mengatur:

Keamanan Model Armor
Caching semantik
Penghitungan dan penerapan token
Pemilihan rute model berbasis prompt

Tidak ada AI tanpa API - Pengulangan

Dengan memanfaatkan kemampuan pengelolaan dan keamanan API Apigee yang terbaik di kelasnya melalui GKE Inference Gateway, perusahaan kini dapat menyatukan lapisan penayangan AI dan tata kelola API mereka. Dengan platform pengelolaan API berfitur lengkap dari Apigee, Anda bisa fokus pada misi utama Anda: menjalankan engine inferensi di GKE untuk memanfaatkan infrastruktur AI terbaik yang tersedia di cloud publik.

diposting di:

Sebelumnya

Berikutnya