최적화된 MongoDB Dataflow 파이프라인을 위한 BigQuery JSON 활용

2025년 3월 11일

Zi Wang Partner engineer

Venkatesh Shanbhag Sr Solutions Architect

MongoDB Atlas용 Google Cloud Dataflow 템플릿의 주요 개선 사항을 소개하게 되어 기쁩니다. 사용자는 이제 JSON 데이터 유형에 대한 직접 지원을 활성화함으로써 MongoDB Atlas 데이터를 BigQuery에 원활하게 통합할 수 있으므로 복잡한 데이터 변환을 할 필요가 없습니다.

이처럼 간소화된 접근 방식 덕분에 시간과 리소스를 절약할 수 있어, 사용자는 고급 데이터 분석과 머신러닝을 통해 데이터의 잠재력을 최대한 활용할 수 있습니다.

JSON feature for user options on Dataflow Templates

그림 1: Dataflow 템플릿에서 사용자 옵션의 JSON 기능

JSON 지원이 없는 경우 한계

전통적으로, MongoDB Atlas 데이터를 처리하도록 설계된 Dataflow 파이프라인은 BigQuery에 로드하기 전에 데이터를 JSON 문자열로 변환하거나 복잡한 구조를 단일 수준의 중첩으로 평탄화해야 하는 경우가 많습니다. 이 접근 방식은 실행 가능하지만 다음과 같은 몇 가지 단점이 발생할 수 있습니다.

지연 시간 증가: 필요한 여러 데이터 변환으로 인해 지연 시간이 증가하고 전체 파이프라인 실행 시간이 상당히 느려질 수 있습니다.

운영 비용 증가: 이 접근 방식과 관련된 추가적인 데이터 변환 및 저장 요구 사항으로 인해 운영 비용이 증가할 수 있습니다.

쿼리 성능 저하: JSON String 형식으로 된 복잡한 문서 구조를 평탄화하면 쿼리 성능에 영향을 미치고 중첩된 데이터를 분석하기 어려워질 수 있습니다.

새로운 사항은 무엇인가요?

BigQuery의 Native JSON 형식은 사용자가 중간 변환 없이 MongoDB Atlas에서 중첩된 JSON 데이터를 BigQuery로 직접 로드할 수 있도록 하여 이러한 문제를 해결합니다.

이 접근 방식에는 다음과 같은 다양한 이점이 있습니다.

운영 비용 절감: 추가로 데이터를 변환할 필요가 없으므로 사용자는 인프라, 저장용량, 컴퓨팅 리소스와 관련된 비용 등 운영 비용을 크게 절감할 수 있습니다.

향상된 쿼리 성능: BigQuery의 최적화된 스토리지 및 쿼리 엔진은 Native JSON 형식의 데이터를 효율적으로 처리하도록 설계되어 쿼리 실행 시간이 상당히 단축되고 전체 쿼리 성능이 향상됩니다.

데이터 유연성 향상: 사용자는 시간이 많이 걸리고 오류가 발생하기 쉬운 평탄화 또는 정규화 프로세스 없이 중첩 및 계층 데이터를 포함한 복잡한 데이터 구조를 쉽게 쿼리하고 분석할 수 있습니다.

이 파이프라인의 주요 장점은 BigQuery에 로드된 MongoDB 데이터에 대해 BigQuery의 강력한 JSON 함수를 직접 활용할 수 있다는 것입니다. 따라서 복잡하고 시간이 많이 걸리는 데이터 변환 프로세스가 필요하지 않습니다. BigQuery 내의 JSON 데이터는 표준 BQML 쿼리를 사용하여 쿼리하고 분석할 수 있습니다.

간소화된 클라우드 기반 접근 방식을 선호하든 맞춤 설정 가능한 직접적 솔루션을 선호하든, Google Cloud 콘솔을 통해서나 github 저장소에서 구할 수 있는 코드를 실행하여 Dataflow 파이프라인을 배포할 수 있습니다.

데이터 기반 의사 결정 지원

요약하자면, Google의 Dataflow 템플릿은 MongoDB에서 BigQuery로 데이터를 전송하는 유연한 솔루션을 제공합니다. MongoDB의 Change Stream 기능을 사용하여 전체 컬렉션을 처리하거나 증분 변경 사항을 캡처할 수 있습니다. 특정 요구에 맞춰 파이프라인의 출력 형식을 맞춤 설정할 수 있습니다. 원시 JSON 표현을 선호하든 개별 필드가 있는 평면화된 스키마를 선호하든, userOption 매개변수를 통해 쉽게 구성할 수 있습니다. 또한 UDF(사용자 정의 함수)를 사용하여 템플릿 실행 중에 데이터 변환을 수행할 수 있습니다.

Dataflow 파이프라인에서 BigQuery Native JSON 형식을 채택하면 데이터 처리 워크플로의 효율성, 성능, 비용 효율성을 크게 향상시킬 수 있습니다. 이 강력한 조합을 통해 데이터에서 가치 있고 유용한 정보를 추출하고 데이터 기반 의사 결정을 내릴 수 있습니다.

Google 설명서를 따라 MongoDB Atlas와 BigQuery의 Dataflow 템플릿을 설정하는 방법을 알아보세요.