数据是推动几乎所有领域发展的基础。作为原始材料,数据有助于我们提炼深刻洞察,从而准确评估当前状况,识别重要趋势,并有望预测未来的发展。
在 Google,我们致力于通过 Data Commons 整理全球公开的统计数据,使其对所有人都更加易于获取和使用。Data Commons 是一个开源的知识图谱,整合了来自各种来源的大量公共数据,可简化开发者、研究人员和数据分析师对数据的访问与理解。Data Commons 除了作为 datacommons.org 网站独立存在之外,也被集成到 Google 搜索中,用以回答诸如“旧金山的人口是多少?”这样的问题。答案会以图表的形式显示在搜索结果顶部。
我们很高兴地宣布,基于 V2 REST API 的全新 Data Commons Python 客户端库现已正式发布。这款新的 Python 库可以极大地提升数据开发者使用 Data Commons 的方式。
这一里程碑的实现,深受合作伙伴 The ONE Campaign 的远见卓识与重要贡献所推动。The ONE Campaign 是一家全球性组织,致力于在非洲推动投资,创造更多经济机会,并改善当地人民的健康生活。我们构建 Data Commons 这一开源平台的初衷是为了鼓励社区参与、促进创新应用,而与 The ONE Campaign 的合作,正是对这一目标的生动诠释。ONE 组织积极倡导并主导了该客户端库的设计与开发工作,旨在让数据科学家和分析师能够更加便捷地获取 Data Commons 所蕴含的丰富洞察,特别是那些希望借助 Python 分析工具和库的丰富生态系统开展工作的专业人士。
Data Commons 平台还允许诸如联合国或 ONE 这样的组织托管属于自己的 Data Commons 实例。这些自定义的实例使专有数据集能够与基础的 Data Commons 知识图谱无缝集成。组织可以在利用 Data Commons 数据框架和工具的同时,全面掌控自身数据与资源。
在 V2 库中,最有影响力的新增功能之一就是对自定义实例的全面支持。这意味着您现在可以使用 Python 库,以编程方式查询任何公共或私有实例,无论该实例是本地部署、由组织内部托管,还是运行于 Google Cloud Platform 上。
Python 库让开发者可以非常便捷地对 Data Commons 数据执行常见查询操作,例如:
客户端库的 V2 版本在 V1 库的基础上实现了多项技术改进,包括:
variable = "sdg/SI_POV_DAY1"
variable_name = "Proportion of population below international poverty line"
df = client.observations_dataframe(variable_dcids=variable, date="all", parent_entity="Earth", entity_type="Continent")
df = df.pivot(index="date", columns="entity_name", values="value")
ax = df.plot(kind="line")
ax.set_xlabel("Year")
ax.set_ylabel("%")
ax.set_title(variable_name)
ax.legend()
ax.plot()
要开始使用 Data Commons Python 客户端库,您可以直接从 PyPI 安装该包。我们还提供丰富的学习资源,帮助您快速上手,包括参考文档和以 Google Colab 笔记形式提供的在线教程。
对于目前仍在使用 V1 Python API 的用户,我们强烈建议升级至全新的 V2 Python 库。V1 版本已计划逐步停用,迁移到新版本将确保您能使用最新功能,并获得后续的技术支持。
此客户端库充分体现了开源协作的力量。所有源代码已在 GitHub 上开源,我们也诚邀社区开发者依据 Google 创作贡献者许可协议积极参与贡献。