Colab のデータ サイエンス エージェント: Gemini によるデータ分析の未来

3月 03, 2025
Jane Fine Senior Product Manager
Mahi Kolla Associate Product Manager
Ilai Soloducho Senior Technical Program Manager

Google Colab は無料のクラウドホスト型 Jupyter Notebook 環境で、ブラウザに直接 Python コードを記述して実行できます。AI モデルを実行するためのゲーム チェンジャーである Google Cloud の GPU と TPU を無料で利用でき、プロジェクトでの共同作業が容易になります。

12 月にお知らせしましたが、Trusted Tester は、Gemini 2.0 を使った Colab のデータ サイエンス エージェントでノートブックを作成できるようになっており、ライブラリのインポート、データの読み込み、ボイラープレート コードの記述といった面倒なセットアップ タスクから解放されています。Trusted Tester は、データ サイエンス エージェントに夢中になっており、ワークフローを効率化してこれまで以上に短い時間で知見を得ることができると報告しています。

そして本日より、一部の国と言語で、18 歳以上の Colab ユーザーがデータ サイエンス エージェントを利用できるようになります。これにより、大学とのパートナーシップが拡大し、シンプルな自然言語の説明を入力するだけで、完全に動作する Colab ノートブックを生成できるので、研究室はデータ処理と分析にかける時間を節約できます。


データ サイエンス エージェントを使った作業の進め方は、次のとおりです。

  1. 新しく始める: 空の Colab ノートブックを開きます。

2. データを追加する: データファイルをアップロードします。

3. 目的を説明する: Gemini のサイドパネルで、どんな分析を行いたいか、またはどんなプロトタイプを作りたいかを説明します(例: 「傾向を視覚化する」、「予測モデルを作成して最適化する」、「欠落値を埋める」、「最適な統計手法を選択する」)。

4. データ サイエンス エージェントの動作を見守る: 動作する Colab ノートブックで、必要なコード、ライブラリのインポート、分析が生成されるのを見守ります。

データ サイエンス エージェントによる自動分析で、データの理解から作業用 Colab ノートブックに関する知見の提供まで、一連の作業が行われる (手順は省略されています。この結果は例示用のもので、データ サイエンス エージェントは間違う可能性もあります。)

データ サイエンス エージェントのメリット

  • 完全に動作する Colab ノートブック: 単なるコード スニペットではなく、実行できる完全なノートブックです。

  • 変更可能なソリューション: 生成されたコードは、特定のニーズに合わせて簡単にカスタマイズして拡張できます。

  • 結果の共有: 標準の Colab の共有機能を使って、チームメイトと共同作業を行います。

  • 時間の節約: セットアップやボイラープレート コードに手間をかけることなく、データから知見を得ることに集中できます。

また、このデータ サイエンス エージェントは HuggingFace の DABStep: 多段階推論データ エージェント ベンチマークで 4 位にランクインし、GPT 4.0、Deepseek、Claude 3.5 Haiku、Llama 3.3 70B ベースの ReAct エージェントを上回りました。


データ サイエンス エージェントを使ってみる

Gemini のサイドパネルからデータをアップロードし、データ分析の目的を簡単に説明するだけで、試すことができます。データセットは、KaggleData Commons で探すことができますが、試してみることができるサンプルデータやプロンプトを紹介します。

  • アヤメの種類: 「このデータのピアソン相関、スピアマン相関、ケンドール相関を計算し、視覚化してください」と頼んでみる

  • ガラスの分類: 「このデータセットでランダム フォレスト分類器をトレーニングしてください」と頼んでみる


この機能で、データ分析のワークフローが一変することを期待しています。皆さんのご意見をお待ちしています。ぜひ、Google Labs Discord コミュニティと #data-science-agent チャンネルにご参加ください。