Pengumuman ketersediaan umum Llama 4 MaaS di Vertex AI

29 APRIL 2025
Ivan Nardini AI/ML Advocate Cloud AI

Menerapkan dan mengelola model Llama 4 melibatkan beberapa langkah: menavigasi pengaturan infrastruktur yang kompleks, mengelola ketersediaan GPU, memastikan skalabilitas, dan menangani biaya operasional yang sedang berjalan. Bagaimana jika Anda bisa mengatasi tantangan ini dan langsung berfokus pada membangun aplikasi Anda? Hal ini dimungkinkan dengan Vertex AI.

Kami sangat senang dapat mengumumkan bahwa Llama 4, generasi terbaru model bahasa besar terbuka Meta, kini tersedia secara umum (GA) sebagai endpoint API terkelola sepenuhnya di Vertex AI! Selain Llama 4, kami juga mengumumkan ketersediaan umum API terkelola Llama 3.3 70B di Vertex AI.

Llama 4 mencapai puncak performa baru dibandingkan model Llama sebelumnya, dengan kemampuan multimodal dan arsitektur Mixture-of-Experts (MoE) yang sangat efisien. Llama 4 Scout lebih bertenaga dibandingkan semua model Llama generasi sebelumnya, sekaligus memberikan efisiensi yang signifikan untuk tugas multimodal dan dioptimalkan untuk berjalan di lingkungan yang menggunakan satu GPU. Llama 4 Maverick adalah opsi model paling cerdas yang disediakan Meta saat ini, yang dirancang untuk melakukan penalaran, memahami gambar yang kompleks, dan tugas generatif yang berat.

Dengan Llama 4 sebagai endpoint API terkelola sepenuhnya, kini Anda bisa memanfaatkan penalaran, coding, dan kemampuan mengikuti instruksi Llama 4 tingkat lanjut dengan kemudahan, skalabilitas, dan keandalan Vertex AI untuk membangun aplikasi berkekuatan AI yang lebih canggih dan berdampak.

Postingan ini akan memandu Anda memulai Llama 4 sebagai Model-as-a-Service (MaaS), menyoroti manfaat utamanya, menunjukkan kepada Anda seberapa mudah penggunaannya, dan membahas pertimbangan biaya.


Temukan Llama 4 MaaS di Vertex AI Model Garden

Vertex AI Model Garden adalah hub terpusat Anda untuk menemukan dan menerapkan model fondasi di Google Cloud melalui API terkelola. Layanan ini menawarkan pilihan model Google yang telah dikurasi (seperti Gemini), model open source, dan model pihak ketiga — semuanya dapat diakses melalui antarmuka yang disederhanakan. Penambahan Llama 4 (GA) sebagai layanan terkelola memperluas pilihan ini, menawarkan Anda lebih banyak fleksibilitas.

Llama 4 MaaS in Vertex AI Model Garden

Mengakses Llama 4 sebagai Model-as-a-Service (MaaS) di Vertex AI memiliki beberapa keuntungan seperti berikut:

1: Manajemen tanpa infrastruktur: Google Cloud menangani infrastruktur dasarnya, penyediaan GPU, dependensi software, patch, dan pemeliharaan. Anda berinteraksi dengan endpoint API sederhana.

2: Performa terjamin: Kapasitas pemrosesan yang ditetapkan untuk model-model ini memastikan ketersediaan tinggi.

3: Keamanan dan kepatuhan tingkat perusahaan: Manfaatkan keamanan, enkripsi data, kontrol akses, dan sertifikasi kepatuhan yang kuat dari Google Cloud.


Memulai Llama 4 MaaS

Anda hanya perlu membuka kartu model Llama 4 di dalam Vertex AI Model Garden dan menerima Perjanjian Lisensi Komunitas Llama untuk memulai Llama 4 MaaS di Vertex AI; Anda tidak bisa memanggil API tanpa menyelesaikan langkah ini.

Setelah Anda menerima Perjanjian Lisensi Komunitas Llama di Model Garden, cari model Llama 4 MaaS spesifik yang ingin Anda gunakan di dalam Vertex AI Model Garden (mis., “Llama 4 17B Instruct MaaS”). Catat ID Model uniknya (seperti meta/llama-4-scout-17b-16e-instruct-maas), karena Anda akan memerlukan ID ini saat memanggil API.

Kemudian Anda bisa langsung memanggil endpoint Llama 4 MaaS menggunakan ChatCompletion API. Tidak diperlukan langkah "deploy" terpisah untuk penawaran MaaS – Google Cloud mengelola penyediaan endpoint. Di bawah ini adalah contoh cara penggunaan Llama 4 Scout menggunakan ChatCompletion API untuk Python.

import openai
from google.auth import default, transport
import os
 
# --- Configuration ---
PROJECT_ID = "<YOUR_PROJECT_ID>" 
LOCATION = "us-east5"
MODEL_ID = "meta/llama-4-scout-17b-16e-instruct-maas" 
 
# Obtain Application Default Credentials (ADC) token
credentials, _ = default()
auth_request = transport.requests.Request()
credentials.refresh(auth_request) 
gcp_token = credentials.token
 
# Construct the Vertex AI MaaS endpoint URL for OpenAI library
vertex_ai_endpoint_url = (
    f"https://{LOCATION}-aiplatform.googleapis.com/v1beta1/"
    f"projects/{PROJECT_ID}/locations/{LOCATION}/endpoints/openapi"
)
 
# Initialize the client to use ChatCompletion API pointing to Vertex AI MaaS
client = openai.OpenAI(
        base_url=vertex_ai_endpoint_url,
        api_key=gcp_token, # Use the GCP token as the API key
    )
 
# Example: Multimodal request (text + image from Cloud Storage)
prompt_text = "Describe this landmark and its significance."
image_gcs_uri = "gs://cloud-samples-data/vision/landmark/eiffel_tower.jpg"
 
messages = [
    {
        "role": "user",
        "content": [
            {
                "type": "image_url",
                "image_url": {"url": image_gcs_uri},
            },
            {"type": "text", "text": prompt_text},
        ],
    }
]
 
# Optional parameters (refer to model card for specifics)
max_tokens_to_generate = 1024
request_temperature = 0.7
request_top_p = 1.0
 
# Call the ChatCompletion API
response = client.chat.completions.create(
        model=MODEL_ID, # Specify the Llama 4 MaaS model ID
        messages=messages,
        max_tokens=max_tokens_to_generate,
        temperature=request_temperature,
        top_p=request_top_p,
        # stream=False # Set to True for streaming responses
    )
 
generated_text = response.choices[0].message.content
print(generated_text)
# The image contains...
Python

Penting: Selalu periksa kartu model Llama 4 khusus di Vertex AI Model Garden. Kartu ini berisi informasi penting tentang:

  • Skema input/output tepat yang diharapkan oleh model.

  • Parameter yang didukung (seperti temperature, top_p, max_tokens) dan rentang yang valid.

  • Setiap persyaratan pemformatan khusus untuk prompt atau input multimodal.


Pertimbangan biaya dan kuota

Menggunakan Llama 4 sebagai Model-as-a-Service di Vertex AI beroperasi dengan model terprediksi yang menggabungkan skema harga bayar-sesuai-penggunaan dengan kuota penggunaan. Memahami struktur harga dan kuota layanan sangatlah penting untuk menskalakan aplikasi Anda dan mengelola biaya secara efektif saat menggunakan Llama 4 MaaS di Vertex AI.

Terkait harga, Anda hanya membayar untuk permintaan prediksi yang Anda lakukan. Biaya infrastruktur, penskalaan, dan manajemen yang mendasarinya sudah termasuk dalam harga penggunaan API. Lihat halaman harga Vertex AI untuk detailnya.

Untuk memastikan stabilitas layanan dan penggunaan wajar, penggunaan Llama 4 sebagai Model-as-service di Vertex AI terikat kuota. Pembatasan ini mencakup faktor seperti jumlah permintaan per menit (RPM) yang bisa dibuat oleh project Anda ke endpoint model tertentu. Lihat dokumentasi kuota kami untuk detail selengkapnya.


Apa berikutnya

Dengan Llama 4 yang kini tersedia secara umum sebagai Model-as-a-Service di Vertex AI, Anda bisa memanfaatkan salah satu LLM terbuka yang paling canggih tanpa perlu mengelola infrastruktur yang dibutuhkan.


Kami sangat antusias melihat aplikasi yang akan Anda bangun dengan Llama 4 di Vertex AI. Bagikan masukan dan pengalaman Anda melalui forum komunitas Google Cloud.