A implantação e o gerenciamento de modelos Llama 4 envolvem várias etapas: navegar pela configuração complexa da infraestrutura, gerenciar a disponibilidade de GPU, garantir a escalonabilidade e lidar com o overhead operacional contínuo. E se você pudesse superar esses desafios e se concentrar totalmente na criação de aplicativos? Isso é possível com a Vertex AI.
Temos o enorme prazer de anunciar que o Llama 4, a mais recente geração de modelos de linguagem grandes abertos da Meta, já está geralmente disponível (GA) como um endpoint de API totalmente gerenciado na Vertex AI! Além do Llama 4, também estamos anunciando a disponibilidade geral da API Llama 3.3 70B gerenciada na Vertex AI.
O Llama 4 atinge novos picos de desempenho em comparação com os modelos Llama anteriores, com recursos multimodais e uma arquitetura Mixture-of-Experts (MoE) altamente eficiente. O Llama 4 Scout é mais poderoso do que todas as gerações anteriores de modelos Llama, além de oferecer uma eficiência significativa para tarefas multimodais e de ser otimizado para execução em um ambiente de GPU única. O Llama 4 Maverick é a opção de modelo mais inteligente da Meta no momento, projetada para raciocínio, compreensão de imagens complexas e tarefas generativas exigentes.
Com o Llama 4 como um endpoint de API totalmente gerenciado, você pode aproveitar os recursos avançados de raciocínio, codificação e acompanhamento de instruções do Llama 4 com a facilidade, escalonabilidade e confiabilidade da Vertex AI para criar aplicativos habilitados por IA mais sofisticados e impactantes.
Esta postagem fornece orientações para dar os primeiros passos com o Llama 4 como um modelo como serviço (MaaS, na sigla em inglês), destaca os principais benefícios, mostra como ele é simples de usar e aborda as considerações de custo.
O Model Garden na Vertex AI é o seu hub central para descobrir e implantar modelos básicos no Google Cloud por meio de APIs gerenciadas. Ele oferece uma seleção com curadoria dos próprios modelos do Google (como o Gemini), de modelos de código aberto e de modelos de terceiros, todos acessíveis por meio de interfaces simplificadas. A adição do Llama 4 (GA) como um serviço gerenciado expande essa seleção, oferecendo ainda mais flexibilidade.
O acesso ao Llama 4 como um modelo como serviço (MaaS) na Vertex AI tem as seguintes vantagens:
1 – Zero gerenciamento de infraestrutura: o Google Cloud lida com a infraestrutura subjacente, o provisionamento de GPU, as dependências de software, a aplicação de patches e a manutenção. Você interage com um endpoint de API simples.
2 – Desempenho garantido: capacidade de processamento atribuída para esses modelos, garantindo alta disponibilidade.
3 – Segurança e conformidade de nível empresarial: aproveite a segurança robusta, a criptografia de dados, os controles de acesso e as certificações de conformidade do Google Cloud.
Para começar a usar o Llama 4 MaaS na Vertex AI, basta navegar até o card de modelo do Llama 4 no Model Garden na Vertex AI e aceitar o contrato de licença da comunidade Llama; não é possível chamar a API sem concluir essa etapa.
Depois de aceitar o contrato de licença da comunidade Llama no Model Garden, localize o modelo Llama 4 MaaS específico que deseja usar no Model Garden na Vertex AI (por exemplo, "Llama 4 17B Instruct MaaS"). Anote o ID de modelo exclusivo relacionado (por exemplo, meta/llama-4-scout-17b-16e-instruct-maas), pois você precisará desse ID ao chamar a API.
Em seguida, você poderá chamar diretamente o endpoint Llama 4 MaaS usando a API ChatCompletion. Não há nenhuma etapa separada de "implantação" necessária para a oferta de MaaS. O Google Cloud gerencia o provisionamento do endpoint. Segue um exemplo de como usar o Llama 4 Scout por meio da API ChatCompletion para Python.
import openai
from google.auth import default, transport
import os
# --- Configuration ---
PROJECT_ID = "<YOUR_PROJECT_ID>"
LOCATION = "us-east5"
MODEL_ID = "meta/llama-4-scout-17b-16e-instruct-maas"
# Obtain Application Default Credentials (ADC) token
credentials, _ = default()
auth_request = transport.requests.Request()
credentials.refresh(auth_request)
gcp_token = credentials.token
# Construct the Vertex AI MaaS endpoint URL for OpenAI library
vertex_ai_endpoint_url = (
f"https://{LOCATION}-aiplatform.googleapis.com/v1beta1/"
f"projects/{PROJECT_ID}/locations/{LOCATION}/endpoints/openapi"
)
# Initialize the client to use ChatCompletion API pointing to Vertex AI MaaS
client = openai.OpenAI(
base_url=vertex_ai_endpoint_url,
api_key=gcp_token, # Use the GCP token as the API key
)
# Example: Multimodal request (text + image from Cloud Storage)
prompt_text = "Describe this landmark and its significance."
image_gcs_uri = "gs://cloud-samples-data/vision/landmark/eiffel_tower.jpg"
messages = [
{
"role": "user",
"content": [
{
"type": "image_url",
"image_url": {"url": image_gcs_uri},
},
{"type": "text", "text": prompt_text},
],
}
]
# Optional parameters (refer to model card for specifics)
max_tokens_to_generate = 1024
request_temperature = 0.7
request_top_p = 1.0
# Call the ChatCompletion API
response = client.chat.completions.create(
model=MODEL_ID, # Specify the Llama 4 MaaS model ID
messages=messages,
max_tokens=max_tokens_to_generate,
temperature=request_temperature,
top_p=request_top_p,
# stream=False # Set to True for streaming responses
)
generated_text = response.choices[0].message.content
print(generated_text)
# The image contains...
Importante: sempre consulte o card de modelo específico do Llama 4 no Model Garden na Vertex AI. Ele contém informações cruciais sobre:
O uso do Llama 4 como um modelo como serviço na Vertex AI segue uma estrutura previsível que combina preços com pagamento por uso e cotas de uso. Entender a estrutura de preços e as suas cotas de serviço é essencial para escalonar aplicativos e gerenciar custos de forma eficaz ao usar o Llama 4 MaaS na Vertex AI.
Em relação aos preços, você paga apenas pelas solicitações de previsão que fizer. Os custos subjacentes de infraestrutura, escalonamento e gerenciamento são incorporados ao preço de uso da API. Consulte os detalhes na página de preços da Vertex AI.
Para garantir a estabilidade do serviço e o uso justo, o uso do Llama 4 como um modelo como serviço na Vertex AI está sujeito a cotas. Elas são limites de fatores, como o número de solicitações por minuto (RPM, na sigla em inglês) que seu projeto pode fazer para o endpoint específico do modelo. Consulte nossa documentação sobre cotas para saber mais detalhes.
Com a disponibilidade geral do Llama 4 como um modelo como serviço na Vertex AI, você pode aproveitar um dos LLMs abertos mais avançados do momento sem gerenciar a infraestrutura necessária.
Mal podemos esperar para ver quais aplicativos você vai criar com o Llama 4 na Vertex AI. Compartilhe seu feedback e suas experiências em nosso fórum da comunidade do Google Cloud.