Data Commons를 위한 새로운 Python 클라이언트 라이브러리로 더 깊은 통찰력 획득

2025년 6월 26일

Kara Moscoe Technical Writer Data Commons

데이터는 거의 모든 분야에서 발전의 기반이 됩니다. 데이터는 심오한 통찰을 낳는 원재료로서 역할을 하며 우리가 오늘날의 현실을 정확하게 평가하고, 중요한 추세를 파악하며, 어쩌면 미래의 결과까지도 예측할 수 있도록 해줍니다.

Data Commons를 통한 Google의 사명은 전 세계에 공개된 통계 데이터를 체계화하여 모든 사람이 보다 쉽고 유용하게 이를 사용할 수 있도록 하는 것입니다. Data Commons는 다양한 소스에서 나온 방대한 공개 데이터를 통합하는 오픈소스 지식 그래프로, 개발자, 연구자, 데이터 분석가가 모두 데이터에 쉽게 접근하고 이해할 수 있도록 지원합니다. datacommons.org 웹사이트와 함께, Google 검색은 Data Commons를 활용해 샌프란시스코의 인구는 몇 명입니까?와 같은 쿼리에 답변하며, 이때 상단에 표시되는 그래프는 Data Commons가 생성한 것입니다.

오늘, V2 REST API를 기반으로 Data Commons를 위한 새로운 Python 클라이언트 라이브러리의 정식 출시를 발표합니다. 이 새로운 Python 라이브러리는 데이터 개발자가 Data Commons를 활용하는 방법을 획기적으로 향상시킵니다.

현실 세계에 미치는 영향: ONE.org와 파트너십 체결

아프리카의 경제적 기회와 더 건강한 삶에 필요한 투자 창출을 위해 노력하는 글로벌 조직이자 저희의 파트너인 The ONE Campaign의 비전과 실질적인 참여가 이 중요한 이정표에 도달하는 데 큰 원동력이 되었습니다. 저희는 커뮤니티 참여를 장려하고 혁신적인 활용을 지원하기 위해 Data Commons를 오픈소스 플랫폼으로 구축했으며, The ONE Campaign과의 이번 협업은 이러한 취지를 잘 보여줍니다. ONE은 Python 분석 도구 및 라이브러리로 구성된 풍부한 생태계를 활용하려는 데이터 과학자 및 분석가가 Data Commons의 풍부하고 유용한 정보를 사용할 수 있도록 클라이언트 라이브러리의 설계를 적극 지지하고 제안하고 코딩했습니다.

맞춤형 Data Commons 인스턴스 지원

또한 UN이나 ONE 같은 조직이 Data Commons 플랫폼을 사용하여 자체 Data Commons 인스턴스를 호스팅할 수도 있습니다. 이러한 맞춤형 인스턴스를 사용하여 조직의 자체 데이터 세트를 기본 Data Commons 지식 그래프와 원활하게 통합할 수 있습니다. 조직에서는 데이터와 리소스를 완벽하게 제어하면서 Data Commons 데이터 프레임워크 및 도구를 활용할 수 있습니다.

V2 라이브러리에서 가장 눈에 띄는 추가 기능 중 하나는 맞춤형 인스턴스에 대한 강력한 지원입니다. 즉, 이제는 Python 라이브러리를 사용하여 로컬 위치, 조직 내부, Google Cloud Platform 등 어느 곳에 호스팅되든 관계없이 모든 공개 또는 비공개 인스턴스를 프로그래밍 방식으로 쿼리할 수 있습니다.

강력한 새로운 기능

Python 라이브러리를 사용하면 Data Commons의 데이터에 대해 다음과 같은 공통 쿼리를 매우 쉽게 수행할 수 있습니다.

지식 그래프의 구조 탐색

인구 통계, 경제, 교육, 에너지, 환경, 보건, 주택 등 다양한 분야의 200개 이상의 데이터 세트에서 200,000개 이상의 통계 변수에 대한 데이터 검색

다른 데이터 세트의 엔터티를 Data Commons의 엔터티에 쉽게 매핑

클라이언트 라이브러리의 V2는 V1 라이브러리에 비해 다음을 포함해 많은 점에서 기술적으로 개선되었습니다.

Pandas 데이터프레임 API는 단일 설치 패키지로 제공되는 통합 모듈로 지원되며 동일한 클라이언트 내 다른 API 엔드포인트와 원활하게 함께 사용할 수 있습니다.

공통 데이터 쿼리를 위한 여러 가지 새로운 편리한 방법

클라이언트 클래스에 내장된 API 키 관리 및 기타 상태 저장 작업

유형 안전성, 유효성 검사, 직렬화 향상을 위한 Pydantic 라이브러리와의 통합

JSON 및 Python 사전과 목록을 포함한 다양한 응답 형식 지원

variable = "sdg/SI_POV_DAY1"
variable_name = "Proportion of population below international poverty line"
 
df = client.observations_dataframe(variable_dcids=variable, date="all", parent_entity="Earth", entity_type="Continent")
 
df = df.pivot(index="date", columns="entity_name", values="value")
 
ax = df.plot(kind="line")
ax.set_xlabel("Year")
ax.set_ylabel("%")
ax.set_title(variable_name)
ax.legend()
ax.plot()

Python

Graph showing proportion of population below international poverty line across continental regions

시작하기

Data Commons Python 라이브러리를 시작하려면 PyPI에서 직접 패키지를 설치할 수 있습니다. 또한 Google Colab 노트북으로 제공되는 참조 문서 및 온라인 튜토리얼을 포함해 심층적인 학습에 도움이 되는 포괄적인 리소스도 제공하고 있습니다.

현재 V1 Python API를 사용 중인 분이라면 새로운 V2 Python 라이브러리로의 업그레이드를 강력히 권합니다. V1 API는 지원 중단 예정이며 새로운 라이브러리를 채택하면 최신 기능 이용은 물론, 지속적인 지원도 받을 수 있습니다.

개방적 커뮤니티

이 라이브러리는 오픈소스 협업의 힘을 보여주는 증거입니다. 오픈소스 코드는 GitHub를 통해 제공되며 Google Contributor 라이선스 계약에 따른 커뮤니티의 참여를 환영합니다.