La implementación y administración de los modelos de Llama 4 implica varios pasos: navegar por la compleja configuración de la infraestructura, administrar la disponibilidad de GPU, garantizar la escalabilidad y manejar los gastos operativos generales en curso. ¿Y si pudieras abordar estos desafíos y centrarte directamente en la creación de tus aplicaciones? Todo esto es posible con Vertex AI.
Nos encanta poder anunciar que Llama 4, la última generación de modelos de lenguaje grande abierto de Meta, ahora cuenta con disponibilidad general (DG) como un extremo de API completamente administrado en Vertex AI. Además de Llama 4, también anunciamos la disponibilidad general de la API administrada Llama 3.3 70B en Vertex AI.
Llama 4 alcanza nuevos picos de rendimiento en comparación con los modelos anteriores de Llama, con capacidades multimodales y una arquitectura de mezcla de expertos (MoE) de gran eficacia. Llama 4 Scout es más potente que todas las generaciones anteriores de modelos Llama y, al mismo tiempo, ofrece una gran eficiencia para tareas multimodales y está optimizado para funcionar en un entorno de una sola GPU. Llama 4 Maverick es la opción de modelo más inteligente que Meta ofrece hoy en día y está diseñada para ofrecer razonamiento y comprensión de imágenes complejas, y realizar tareas generativas exigentes.
Con Llama 4 como un extremo de API completamente administrado, ahora puedes aprovechar las capacidades avanzadas de razonamiento, codificación y seguimiento de instrucciones de Llama 4 con la facilidad, escalabilidad y confiabilidad de Vertex AI para crear aplicaciones impulsadas por IA más sofisticadas e impactantes.
En esta entrada, darás tus primeros pasos con Llama 4 como modelo como servicio (MaaS), conocerás los beneficios clave, verás lo fácil que es usarlo y analizarás las consideraciones sobre los costos.
Vertex AI Model Garden es donde descubrirás e implementarás modelos de base en Google Cloud a través de APIs administradas. Ofrece una selección seleccionada de modelos propios de Google (como Gemini), modelos de código abierto y modelos de terceros, todos accesibles a través de interfaces simplificadas. La incorporación de Llama 4 (DG) como servicio administrado amplía esta selección, ya que te ofrece más flexibilidad.
El acceso a Llama 4 como modelo como servicio (MaaS) en Vertex AI tiene las siguientes ventajas:
1: Cero administración de infraestructura: Google Cloud maneja la infraestructura subyacente, el aprovisionamiento de GPU, las dependencias de software, los parches y el mantenimiento. Tú interactúas con un simple extremo de API.
2: Rendimiento garantizado: capacidad de procesamiento asignada para estos modelos, lo que asegura una alta disponibilidad.
3: Seguridad y cumplimiento de nivel empresarial: aprovecha los beneficios de las certificaciones de seguridad, cifrado de datos, controles de acceso y cumplimiento de Google Cloud.
Para empezar a usar Llama 4 como MaaS en Vertex AI, solo debes navegar hasta la tarjeta del modelo de Llama 4 dentro de Vertex AI Model Garden y aceptar el Acuerdo de licencia de la comunidad de Llama. No puedes llamar a la API sin completar este paso.
Después de aceptar el Acuerdo de licencia de la comunidad de Llama en Model Garden, busca el modelo específico de Llama 4 como MaaS que deseas usar dentro de Vertex AI Model Garden (por ejemplo, “Llama 4 17B Instruct MaaS”). Toma nota de su ID de modelo único (como meta/llama-4-scout-17b-16e-instruct-maas), ya que necesitarás este ID cuando llames a la API.
Luego, puedes llamar directamente al extremo de Llama 4 como MaaS utilizando la API de ChatCompletion. No se requiere un paso de “implementación” separado para la oferta de MaaS, ya que Google Cloud administra el aprovisionamiento de extremos. A continuación, se muestra un ejemplo de cómo usar Llama 4 Scout usando la API de ChatCompletion para Python.
import openai
from google.auth import default, transport
import os
# --- Configuration ---
PROJECT_ID = "<YOUR_PROJECT_ID>"
LOCATION = "us-east5"
MODEL_ID = "meta/llama-4-scout-17b-16e-instruct-maas"
# Obtain Application Default Credentials (ADC) token
credentials, _ = default()
auth_request = transport.requests.Request()
credentials.refresh(auth_request)
gcp_token = credentials.token
# Construct the Vertex AI MaaS endpoint URL for OpenAI library
vertex_ai_endpoint_url = (
f"https://{LOCATION}-aiplatform.googleapis.com/v1beta1/"
f"projects/{PROJECT_ID}/locations/{LOCATION}/endpoints/openapi"
)
# Initialize the client to use ChatCompletion API pointing to Vertex AI MaaS
client = openai.OpenAI(
base_url=vertex_ai_endpoint_url,
api_key=gcp_token, # Use the GCP token as the API key
)
# Example: Multimodal request (text + image from Cloud Storage)
prompt_text = "Describe this landmark and its significance."
image_gcs_uri = "gs://cloud-samples-data/vision/landmark/eiffel_tower.jpg"
messages = [
{
"role": "user",
"content": [
{
"type": "image_url",
"image_url": {"url": image_gcs_uri},
},
{"type": "text", "text": prompt_text},
],
}
]
# Optional parameters (refer to model card for specifics)
max_tokens_to_generate = 1024
request_temperature = 0.7
request_top_p = 1.0
# Call the ChatCompletion API
response = client.chat.completions.create(
model=MODEL_ID, # Specify the Llama 4 MaaS model ID
messages=messages,
max_tokens=max_tokens_to_generate,
temperature=request_temperature,
top_p=request_top_p,
# stream=False # Set to True for streaming responses
)
generated_text = response.choices[0].message.content
print(generated_text)
# The image contains...
Importante: Consulte siempre la tarjeta de modelo específica de Llama 4 en Vertex AI Model Garden, ya que incluye información crucial sobre lo siguiente:
El uso de Llama 4 como modelo como servicio en Vertex AI opera en un modelo predecible que combina los precios de pago por uso con las cuotas de uso. Comprender tanto la estructura de precios como tus cuotas de servicio es esencial para escalar tu aplicación y administrar los costos de manera efectiva al usar Llama 4 como MaaS en Vertex AI.
En cuanto a los precios, solo pagas por las solicitudes de predicción que hagas. Los costos subyacentes de infraestructura, escalamiento y administración se incorporan al precio de uso de la API. Consulta la página de precios de Vertex AI para obtener más detalles.
Para garantizar la estabilidad y el uso justo del servicio, el uso que haces de Llama 4 como modelo como servicio en Vertex AI está sujeto a cuotas. Estas son límites en factores como el número de solicitudes por minuto (RPM) que tu proyecto puede hacer al extremo específico del modelo. Consulta nuestra documentación sobre cuotas para obtener más detalles.
Con Llama 4, que ahora cuenta con disponibilidad general como un modelo como servicio en Vertex AI, puedes aprovechar uno de los LLM de código abierto más avanzados sin administrar la infraestructura requerida.
Tenemos muchas ganas de ver qué aplicaciones crearás con Llama 4 en Vertex AI. Comparte tus comentarios y experiencias a través de nuestro foro de la comunidad de Google Cloud.