Ray on Vertex AI で Gemma を使ってみる

Gemma は、Gemini モデルと同じ研究技術で構築されたオープンモデルのファミリーです。Gemma モデルは、テキスト生成、コードの補完や生成、特定のタスクのファインチューニング、さまざまなデバイスでの実行など、幅広いタスクを実行できます。

Ray は、AI と Python アプリケーションを拡張するオープンソースフレームワークであり、機械学習（ML）ワークフローで分散コンピューティングと並列処理を行うインフラストラクチャを提供します。

このチュートリアルを終えると、Ray on Vertex AI で Gemma の教師ありチューニングを行う方法をしっかりと理解し、機械学習モデルを効率的かつ効果的にトレーニングして提供できるようになります。

Ray で Gemma を使う方法は、GitHub の「Get started with Gemma on Ray on Vertex AI」チュートリアルノートブックで詳しく解説されています。以下のコードは、すべてこのノートブックの一部です。ぜひ参考にしてください。

前提条件

すべての環境で次の手順が必要です。

Google Cloud プロジェクトを選択または作成する。

2. プロジェクトで課金を有効にする。

3. API を有効化する。

このチュートリアルをローカルで実行する場合は、Cloud SDK をインストールする必要があります。

費用

このチュートリアルでは、以下の Google Cloud 課金対象コンポーネントを使います。

Vertex AI

Cloud Build

Artifact Registry

Cloud Storage

価格について詳しく知りたい方は、料金計算ツールをご利用ください。予想使用量に基づいて費用の見積もりを作成できます。

必要なもの

データセット

一文要約システムのデータセット、Extreme Summarization（XSum）データセットを使います。

Cloud Storage バケット

データセットなどの中間アーティファクトを格納するストレージバケットを作成する必要があります。

Create a storage bucket to store intermediate artifacts

Google Cloud CLI を使うこともできます。

gsutil mb -l {REGION} -p {PROJECT_ID} {BUCKET_URI}
 
# 例: gsutil mb -l asia-northeast1 -p test-bebechien gs://test-bebechien-ray-bucket

Python

Docker イメージリポジトリ

カスタムクラスタイメージを保存できるように、Artifact Registry に Docker リポジトリを作成します。

Create a Docker repository in the Artifact Registry.

Google Cloud CLI を使うこともできます。

gcloud artifacts repositories create your-repo --repository-format=docker --location=your-region --description="Tutorial repository"

Python

Vertex AI TensorBoard インスタンス

TensorBoard インスタンスを使うと、チューニングジョブを追跡、監視できます。[Experiments] から作成できます。

Create a TensorBoard instance from Experiments

Google Cloud CLI を使うこともできます。

gcloud ai tensorboards create --display-name your-tensorboard --project your-project --region your-region

Python

Vertex AI で Ray クラスタを設定する方法

カスタムクラスタイメージをビルドする

Ray on Vertex AI を使う場合、カスタムイメージ用の Dockerfile をゼロから作成するか、ビルド済みの Ray ベースイメージのどちらかを利用します。こちらにベースイメージの 1 つが公開されています。

最初に、Ray アプリケーションの実行に必要な依存関係を含めた requirements ファイルを準備します。

tutorial/build/requirements.txt

次に、いずれかのビルド済み Ray on Vertex AI ベースイメージを使って、カスタムイメージ用の Dockerfile を作成します。

tutorial/build/Dockerfile

最後に、Cloud Build を使って Ray クラスタのカスタムイメージをビルドします。

gcloud builds submit --region=your-region
--tag=your-region-docker.pkg.dev/your-project/your-repo/train --machine-type=E2_HIGHCPU_32 ./dockerfile-path

Python

すべてが成功すれば、カスタムイメージが Docker イメージリポジトリに正常にプッシュされたことを示すメッセージが表示されます。

The custom image has been successfully pushed to your docker image repository.

Artifact Registry にもあります。

The custom image has been successfully pushed to your artifact registry

Ray クラスタを作成する

Ray on Vertex AI から Ray クラスタを作成できます。

Vertex AI Python SDK を使ってカスタムイメージの Ray クラスタを作成し、クラスタ構成をカスタマイズすることもできます。クラスタ構成の詳細については、ドキュメントをご覧ください。

次の Python コードは、定義済みのカスタム構成で Ray クラスタを作る例です。

注: 構成によっては、クラスタの作成に数分程度かかる場合があります。

# Ray on Vertex AI をセットアップ
import vertex_ray
from google.cloud import aiplatform as vertex_ai
from vertex_ray import NodeImages, Resources
 
# 指定の tensorboard ID から既存のマネージド tensorboard を取得
tensorboard = vertex_ai.Tensorboard(your-tensorboard-id, project=your-project, location=your-region)
 
# プロジェクトの Vertex AI SDK for Python を初期化
vertex_ai.init(project=your-project, location=your-region, staging_bucket=your-bucket-uri, experiment_tensorboard=tensorboard)
 
 
HEAD_NODE_TYPE = Resources(
    machine_type= "n1-standard-16",
    node_count=1,
)
 
WORKER_NODE_TYPES = [
    Resources(
        machine_type="n1-standard-16",
        node_count=1,
        accelerator_type="NVIDIA_TESLA_T4",
        accelerator_count=2,
    )
]
 
CUSTOM_IMAGES = NodeImages(
    head="your-region-docker.pkg.dev/your-project/your-repo/train",
    worker="your-region-docker.pkg.dev/your-project/your-repo/train",
)
 
ray_cluster_name = vertex_ray.create_ray_cluster(
    head_node_type=HEAD_NODE_TYPE,
    worker_node_types=WORKER_NODE_TYPES,
    custom_images=CUSTOM_IMAGES,
    cluster_name=”your-cluster-name”,
)

Python

これで、get_ray_cluster() を使って Ray クラスタを取得できます。プロジェクトのすべてのクラスタを表示するには、list_ray_clusters() を使います。

ray_clusters = vertex_ray.list_ray_clusters()
ray_cluster_resource_name = ray_clusters[-1].cluster_resource_name
ray_cluster = vertex_ray.get_ray_cluster(ray_cluster_resource_name)
 
print("Ray cluster on Vertex AI:", ray_cluster_resource_name)

Python

Ray on Vertex AI で Gemma をファインチューニングする

Ray on Vertex AI で Gemma をファインチューニングするには、Ray Train で PyTorch トレーニングを使って、HuggingFace Transformers を分散処理します。

Ray Train では、分散処理で Gemma をチューニングする HuggingFace Transformers コードを含むトレーニング関数を定義します。次に、スケーリング構成を定義し、希望のワーカー数と、分散トレーニングプロセスに GPU が必要かどうかを指定します。さらに、ランタイム構成を定義して、チェックポイントと同期の動作を指定します。最後に、TorchTrainer を開始してファインチューニングを送信し、fit メソッドで実行します。

このチュートリアルでは、Ray on Vertex AI で HuggingFace Transformer を使い、新聞記事を要約できるように Gemma 2B（gemma-2b-it）をファインチューニングします。そのため、シンプルな Python スクリプト trainer.py を作成して Ray クラスタに送信します。

Python スクリプトを準備する

トレーニングスクリプトを準備します。次に示すのは、HuggingFace TRL ライブラリを使って Gemma のファインチューニングを初期化する Python スクリプトの例です。

tutorial/src/train.py

続いて、分散トレーニングスクリプトを準備します。次に示すのは、Ray の分散トレーニングジョブを実行する Python スクリプトの例です。

tutorial/src/trainer.py

次に、このスクリプトを Ray クラスタに送信します。Ray ダッシュボードのアドレスから Ray Jobs API を使います。ダッシュボードのアドレスは、クラスタの詳細ページの次の場所で確認することもできます。

Cluster details page showing the dashboard address

まず、クライアントを起動して、ジョブを送信します。

import ray
from ray.job_submission import JobSubmissionClient
 
client = JobSubmissionClient(
    address="vertex_ray://{}".format(ray_cluster.dashboard_address)
)

Python

それでは、モデルのパス、ジョブ ID、予測のエントリポイントなど、いくつかのジョブ構成を設定しましょう。

import random, string, datasets, transformers
from etils import epath
from huggingface_hub import login
 
 
# いくつかのライブラリ設定を初期化
login(token=”your-hf-token”)
datasets.disable_progress_bar()
transformers.set_seed(8)
 
train_experiment_name = “your-experiment-name”
train_submission_id = “your-submission-id”
train_entrypoint = f"python3 trainer.py --experiment-name={train_experiment_name} --logging-dir=”your-bucket-uri/logs” --num-workers=2 --use-gpu"
train_runtime_env = {
    "working_dir": "your-working-dir",
    "env_vars": {"HF_TOKEN": ”your-hf-token”, "TORCH_NCCL_ASYNC_ERROR_HANDLING": "3"},
}

Python

ジョブを送信します。

train_job_id = client.submit_job(
    submission_id=train_submission_id,
    entrypoint=train_entrypoint,
    runtime_env=train_runtime_env,
)

Python

OSS ダッシュボードで、ジョブのステータスを確認します。

トレーニングアーティファクトを確認してトレーニングをモニタリングする

Ray on Vertex AI を使った AI/ML アプリケーションの開発には、さまざまな利点があります。このシナリオでは、Cloud Storage を使って、モデルのチェックポイントや指標などを簡単に保存できます。そのため、Vertex AI TensorBoard でトレーニングプロセスをモニタリングする、Ray Data で一括予測するなど、AI/ML のダウンストリームタスクですばやくモデルを利用できます。

Ray トレーニングジョブの実行中および完了後には、Google Cloud CLI を使って Cloud Storage に格納されているモデルアーティファクトを確認できます。

gsutil ls -l your-bucket-uri/your-experiments/your-experiment-name

Python

Vertex AI TensorBoard を使うと、結果の指標を記録してトレーニングジョブを検証できます。

vertex_ai.upload_tb_log(
    tensorboard_id=tensorboard.name,
    tensorboard_experiment_name=train_experiment_name,
    logdir=./experiments,
)

Python

Vertex AI で Gemma のトレーニングを検証する

トレーニングが成功したら、ローカルで予測を行ってチューニング済みモデルを検証できます。

まず、Google Cloud CLI を使い、Ray ジョブで生成されたすべてのチェックポイントをダウンロードします。

# すべてのアーティファクトをコピー
gsutil ls -l your-bucket-uri/your-experiments/your-experiment-name ./your-experiment-path

Python

ExperimentAnalysis メソッドを使い、関連する指標とモードを考慮して最適なチェックポイントを取得します。

import ray
from ray.tune import ExperimentAnalysis
 
experiment_analysis = ExperimentAnalysis(“./your-experiment-path”)
log_path = experiment_analysis.get_best_trial(metric="eval_rougeLsum", mode="max")
best_checkpoint = experiment_analysis.get_best_checkpoint(
    log_path, metric="eval_rougeLsum", mode="max"
)

Python

これで最適なチェックポイントがどれであるかがわかります。次に出力例を示します。

次に、ファインチューニング済みモデルを読み込みます。この手順は、Hugging Face のドキュメントに記載されています。

次に示すのは、ベースモデルを読み込み、アダプタをマージして、通常のトランスフォーマーモデルのように使えるようにする Python コードの例です。チューニング済みモデルは、tuned_model_path に保存されています。たとえば、“tutorial/models/xsum-tuned-gemma-it” です。

import torch
from etils import epath
from transformers import AutoModelForCausalLM, AutoTokenizer
from peft import PeftModel
 
base_model_path = "google/gemma-2b-it"
peft_model_path = epath.Path(best_checkpoint.path) / "checkpoint"
tuned_model_path = models_path / "xsum-tuned-gemma-it"
 
tokenizer = AutoTokenizer.from_pretrained(base_model_path)
tokenizer.padding_side = "right"
 
base_model = AutoModelForCausalLM.from_pretrained(
    base_model_path, device_map="auto", torch_dtype=torch.float16
)
peft_model = PeftModel.from_pretrained(
    base_model,
    peft_model_path,
    device_map="auto",
    torch_dtype=torch.bfloat16,
    is_trainable=False,
)
 
tuned_model = peft_model.merge_and_unload()
tuned_model.save_pretrained(tuned_model_path)

Python

豆知識: ファインチューニング済みモデルは、次の 1 行のコードで Hugging Face Hub にも公開できます。

tuned_model.push_to_hub("my-awesome-model")

Python

チューニング済みモデルで、チュートリアルデータセットの検証セットを使って要約を生成してみましょう。

次に示すのは、要約用にデータセットから 1 つの記事をサンプリングする Python コードの例です。その後、関連する要約を生成し、基準となるデータセットの要約と生成した要約を並べて表示します。

import random, datasets
from transformers import pipeline
 
dataset = datasets.load_dataset(
    "xsum", split="validation", cache_dir=”./data”, trust_remote_code=True
)
 
sample = dataset.select([random.randint(0, len(dataset) - 1)])
document = sample["document"][0]
reference_summary = sample["summary"][0]
 
messages = [
    {
        "role": "user",
        "content": f"Summarize the following ARTICLE in one sentence.\n###ARTICLE: {document}",
    },
]
 
prompt = tokenizer.apply_chat_template(
    messages, tokenize=False, add_generation_prompt=True
)
 
tuned_gemma_pipeline = pipeline(
    "text-generation", model=tuned_model, tokenizer=tokenizer, max_new_tokens=50
)
 
generated_tuned_gemma_summary = tuned_gemma_pipeline(
    prompt, do_sample=True, temperature=0.1, add_special_tokens=True
)[0]["generated_text"][len(prompt) :]
 
print(f"Reference summary: {reference_summary}")
print("-" * 100)
print(f"Tuned generated summary: {generated_tuned_gemma_summary}")

Python

次に示すのは、チューニング済みモデルの出力例です。チューニング済みの結果であっても、さらに改善が必要になる場合もあります。最適な品質を得るには、学習率やトレーニングステップ数などを調整しながら、何度かプロセスを繰り返す必要があります。

チューニング済みモデルを評価する

追加の手順として、チューニング済みモデルを評価できます。モデルを評価するには、定性的および定量的な比較を行います。

1 つの方法として、ベースの Gemma モデルが生成した応答と、チューニング済みの Gemma モデルが生成した応答を比較することができます。別の方法として、ROUGE 指標とその改善度を計算することもできます。そこから、チューニング済みモデルが基準となる要約をどこまで正確に再現できているかを、ベースモデルと比較して判断できます。

次に示すのは、生成した要約を比較してモデルを評価する Python コードです。

gemma_pipeline = pipeline(
    "text-generation", model=base_model, tokenizer=tokenizer, max_new_tokens=50
)
 
generated_gemma_summary = gemma_pipeline(
    prompt, do_sample=True, temperature=0.1, add_special_tokens=True
)[0]["generated_text"][len(prompt) :]
 
print(f"Reference summary: {reference_summary}")
print("-" * 100)
print(f"Base generated summary: {generated_gemma_summary}")
print("-" * 100)
print(f"Tuned generated summary: {generated_tuned_gemma_summary}")

Python

次に示すのは、ベースモデルとチューニング済みモデルの出力例です。

Example output from the base model and tuned model.

また、次に示すのは、モデルを評価するために ROUGE 指標とその改善度を計算するコードです。

import evaluate
 
rouge = evaluate.load("rouge")
 
gemma_results = rouge.compute(
    predictions=[generated_gemma_summary],
    references=[reference_summary],
    rouge_types=["rouge1", "rouge2", "rougeL", "rougeLsum"],
    use_aggregator=True,
    use_stemmer=True,
)
 
tuned_gemma_results = rouge.compute(
    predictions=[generated_tuned_gemma_summary],
    references=[reference_summary],
    rouge_types=["rouge1", "rouge2", "rougeL", "rougeLsum"],
    use_aggregator=True,
    use_stemmer=True,
)
 
improvements = {}
for rouge_metric, gemma_rouge in gemma_results.items():
    tuned_gemma_rouge = tuned_gemma_results[rouge_metric]
    if gemma_rouge != 0:
        improvement = ((tuned_gemma_rouge - gemma_rouge) / gemma_rouge) * 100
    else:
        improvement = None
    improvements[rouge_metric] = improvement
 
print("Base Gemma vs Tuned Gemma - ROUGE improvements")
for rouge_metric, improvement in improvements.items():
    print(f"{rouge_metric}: {improvement:.3f}%")

Python

評価の出力例も示します。

Base Gemma v Tuned Gemma - Rouge improvements

Ray Data を使ってオフラインで予測用にチューニング済み Gemma モデルを提供する

ML ワークロード用のスケーラブルなデータ処理ライブラリ Ray Data を使うと、Ray on Vertex AI でチューニングした Gemma で大規模なオフライン予測を行うことができます。

Ray Data を使って Gemma でオフライン予測を行うには、Python クラスを定義して Hugging Face Pipeline でチューニング済みモデルを読み込む必要があります。次に、データソースとその形式に応じて、Ray Data を使って分散データ読み込みを行い、Python クラスで Ray データセットのメソッドを使って、複数のデータバッチで同時に予測を行います。

Ray Data によるバッチ予測

Vertex AI の Ray Data でチューニング済みモデルを使ってバッチ予測を行うには、予測に使うデータセットとチューニング済みモデルをクラウドのバケットに保存しておきます。

次に、Ray Data を活用します。Ray Data では、オフラインでバッチ推論を行うための便利な API が提供されています。

まず、Google Cloud CLI を使って、チューニング済みモデルを Cloud Storage にアップロードします。

gsutil -q cp -r “./models” “your-bucket-uri/models”

Python

Ray でバッチ予測ジョブを行うためのバッチ予測トレーニングスクリプトファイルを準備します。

tutorial/src/batch_predictor.py

ここでも、Ray Jobs API と Ray ダッシュボードのアドレスを使って、クライアントからジョブを送信します。次に例を示します。

import ray
from ray.job_submission import JobSubmissionClient
 
client = JobSubmissionClient(
    address="vertex_ray://{}".format(ray_cluster.dashboard_address)
)

Python

それでは、モデルのパス、ジョブ ID、予測のエントリポイントなど、いくつかのジョブ構成を設定しましょう。

import random, string
 
batch_predict_submission_id = "your-batch-prediction-job"
tuned_model_uri_path = "/gcs/your-bucket-uri/models"
batch_predict_entrypoint = f"python3 batch_predictor.py --tuned_model_path={tuned_model_uri_path} --num_gpus=1 --output_dir=”your-bucket-uri/predictions”"
batch_predict_runtime_env = {
    "working_dir": "tutorial/src",
    "env_vars": {"HF_TOKEN": “your-hf-token”},
}

Python

"--num_gpus" 引数で、利用する GPU の数を指定できます。Ray クラスタで利用できる GPU の数以下である必要があります。

その後、ジョブを送信します。

batch_predict_job_id = client.submit_job(
    submission_id=batch_predict_submission_id,
    entrypoint=batch_predict_entrypoint,
    runtime_env=batch_predict_runtime_env,
)

Python

Pandas DataFrame を使って、生成した要約を簡単に確認してみましょう。

import io
import pandas as pd
from google.cloud import storage
 
def read_json_files(bucket_name, prefix=None):
    """Cloud Storage のバケットから JSON ファイルを読み込み、Pandas の DataFrame を返す"""
 
    # ストレージ クライアントのセットアップ
    storage_client = storage.Client()
    bucket = storage_client.bucket(bucket_name)
    blobs = bucket.list_blobs(prefix=prefix)
 
    dfs = []
 
    for blob in blobs:
        if blob.name.endswith(".json"):
            file_bytes = blob.download_as_bytes()
            file_string = file_bytes.decode("utf-8")
            with io.StringIO(file_string) as json_file:
                df = pd.read_json(json_file, lines=True)
            dfs.append(df)
 
    return pd.concat(dfs, ignore_index=True)
 
predictions_df = read_json_files(prefix="predictions/", bucket_name=”your-bucket-uri”)
predictions_df = predictions_df[
    ["id", "document", "prompt", "summary", "generated_summary"]
]
predictions_df.head()

Python

次に出力例を示します。要約する記事のデフォルト数は 20 です。この数は、“--sample_size” 引数で指定できます。

まとめ

ここでは、次のようなたくさんのことを学びました。

Vertex AI で Ray クラスタを作成する方法

Vertex AI の Ray Train で Gemma をチューニングする方法

Vertex AI で Gemma のトレーニングを検証する方法

チューニング済みの Gemma モデルを評価する方法

Ray Data を使ってオフライン予測用に Gemma を提供する方法

このチュートリアルが、貴重な知見を提供する有用なものとなることを願っています。

Google デベロッパーコミュニティの Discord サーバーにご参加ください。プロジェクトを共有したり、他のデベロッパーと交流したり、共同ディスカッションに参加したりできます。

また、このプロジェクトで使ったすべての Google Cloud リソースは、忘れずにクリーンアップしておきましょう。これは、チュートリアルで使った Google Cloud プロジェクトを削除するだけで行えます。そうしない場合は、作成した個々のリソースを削除できます。

# tensorboard を削除
tensorboard_list = vertex_ai.Tensorboard.list()
for tensorboard in tensorboard_list:
    tensorboard.delete()
 
# Experiment を削除
experiment_list = vertex_ai.Experiment.list()
for experiment in experiment_list:
    experiment.delete()
 
# Ray on Vertex クラスタを削除
ray_cluster_list = vertex_ray.list_ray_clusters()
for ray_cluster in ray_cluster_list:
    vertex_ray.delete_ray_cluster(ray_cluster.cluster_resource_name)

Python

# アーティファクト リポジトリを削除
gcloud artifacts repositories delete “your-repo” -q
 
# 作成した Cloud Storage オブジェクトを削除
gsutil -q -m rm -r “your-bucker-uri”

Python

お読みいただき、ありがとうございました！

参考文献

https://github.com/GoogleCloudPlatform/vertex-ai-samples/blob/main/notebooks/community/model_garden/model_garden_gemma_fine_tuning_batch_deployment_on_rov.ipynb

https://cloud.google.com/vertex-ai/docs/open-source/ray-on-vertex-ai/overview

https://github.com/googleapis/python-aiplatform/tree/main/google/cloud/aiplatform/preview/vertex_ray

https://github.com/bebechien/gemma/tree/main/ray/tutorial

Ray on Vertex AI で Gemma を使ってみる

前提条件

費用

必要なもの

データセット

Cloud Storage バケット

Docker イメージ リポジトリ

Vertex AI TensorBoard インスタンス

Vertex AI で Ray クラスタを設定する方法

カスタム クラスタ イメージをビルドする

Ray クラスタを作成する

Ray on Vertex AI で Gemma をファイン チューニングする

Python スクリプトを準備する

トレーニング アーティファクトを確認してトレーニングをモニタリングする

Vertex AI で Gemma のトレーニングを検証する

チューニング済みモデルを評価する

Ray Data を使ってオフラインで予測用にチューニング済み Gemma モデルを提供する

Ray Data によるバッチ予測

まとめ

参考文献

Docker イメージリポジトリ

カスタムクラスタイメージをビルドする

Ray on Vertex AI で Gemma をファインチューニングする

トレーニングアーティファクトを確認してトレーニングをモニタリングする