Colab 中的数据科学代理:使用 Gemini 进行数据分析的未来

三月 03, 2025
Jane Fine Senior Product Manager
Mahi Kolla Associate Product Manager
Ilai Soloducho Senior Technical Program Manager

Google Colab 是一个免费的云托管 Jupyter Notebook 环境。在该环境下,您可以直接在浏览器中编写和运行 Python 代码。Google Colab 还支持免费访问 Google Cloud GPU 和 TPU,这对运行中的 AI 模型具有划时代意义,并简化了项目协作。

去年 12 月,我们分享了 Colab 中的数据科学代理如何使用 Gemini 为受信任的测试人员创建 notebook,从而省去了导入库、加载数据和编写样板代码等繁琐的设置任务。受信任的测试人员对数据科学代理充满了热情,并反映他们能够简化工作流,还能比以往更快地发掘见解。

今天,我们很高兴能向 18 岁以上、位于特定国家且使用特定语言的 Colab 用户推出数据科学代理。我们可借此扩大与大学的合作伙伴关系,进而通过从简单的自然语言描述中生成完整且可运行的 Colab notebook,帮助研究实验室节省数据处理和分析的时间。


以下是数据科学代理的工作原理:

  1. 从头开始:打开空白的 Colab notebook。

2. 添加数据:上传您的数据文件。

3. 描述您的目标:在 Gemini 侧面板中描述您希望构建的分析或原型(例如,“可视化趋势”、“构建和优化预测模型”、“填充缺失值”、“选择最佳统计技术”等)。

4. 静待数据科学代理完成工作:运行的 Colab notebook 中将创建必要的代码、导入库并生成分析,您只需坐享其成。

数据科学代理可将理解数据、在可运行的 Colab notebook 中提供见解等分析流程自动化\ r (此处缩短了序列。结果仅作说明之用。数据科学代理可能会犯错。)

数据科学代理的优势

  • 功能齐全的 Colab notebook:不再是代码片段,而是完整可执行的 notebook。

  • 可修改的解决方案:轻松自定义和扩展生成的代码,以满足您的特定需求。

  • 可分享的成果:使用标准的 Colab 共享功能与团队成员协作。

  • 节省时间:省去处理设置和样板代码的繁琐工作,让您可以专注于从数据中获取见解。

在 HuggingFace 发布的测评“DABStep:多步推理的数据代理基准”中,我们的数据科学代理排名第四,领先于基于 GPT 4.0、Deepseek、Claude 3.5 Haiku 和 Llama 3.3 70B 的 ReAct 代理。


开始使用数据科学代理

您只需上传数据,并在 Gemini 侧面板概述数据分析目标,即可体验数据科学代理。您可以在 KaggleData Commons 上探索数据集,但您可以用以下示例数据和提示尝试一下:

  • 虹膜类别:尝试要求“计算此数据中 Pearson、Spearman 和 Kendall 之间的相关性并将其可视化”

  • 玻璃分类:尝试要求“在此数据集上训练随机森林分类器”


我们希望这能改变您的数据分析工作流。我们迫切希望得到您的宝贵反馈,请加入我们的 Google Labs Discord 社区和 #data-science-agent 频道与我们交流。