Memanfaatkan BigQuery JSON untuk Mengoptimalkan Pipeline Dataflow MongoDB

MAR 12, 2025
Zi Wang Partner engineer
Venkatesh Shanbhag Sr Solutions Architect

Kami sangat senang bisa memperkenalkan peningkatan besar pada template Google Cloud Dataflow untuk MongoDB Atlas. Dengan mengaktifkan dukungan langsung untuk tipe data JSON, pengguna kini dapat mengintegrasikan data MongoDB Atlas dengan mudah ke dalam BigQuery, sehingga mereka tidak perlu lagi melakukan transformasi data kompleks.

Pendekatan yang efisien ini menghemat waktu dan sumber daya, memberdayakan pengguna untuk membuka potensi maksimal data mereka melalui analisis data dan machine learning lanjutan.

JSON feature for user options on Dataflow Templates
Gambar 1: Fitur JSON untuk opsi pengguna pada Template Dataflow

Keterbatasan tanpa dukungan JSON

Secara tradisional, pipeline Dataflow yang dirancang untuk menangani data MongoDB Atlas sering kali membutuhkan transformasi data ke dalam string JSON atau meratakan struktur kompleks menjadi satu level sarang sebelum dimuat ke dalam BigQuery. Meskipun pendekatan ini bisa dilakukan, tetapi ada beberapa kekurangannya:

  • Peningkatan latensi: Banyaknya konversi data yang diperlukan bisa meningkatkan latensi dan secara signifikan memperlambat waktu eksekusi pipeline secara keseluruhan.

  • Biaya operasional yang lebih tinggi: Transformasi data ekstra dan persyaratan penyimpanan yang terkait dengan pendekatan ini bisa meningkatkan biaya operasional.

  • Mengurangi performa kueri: Meratakan struktur dokumen kompleks dalam format JSON String bisa memengaruhi performa kueri dan menyulitkan analisis data bersarang.


Jadi, apa yang baru?

Format JSON Native BigQuery mengatasi tantangan ini dengan memungkinkan pengguna secara langsung memuat data JSON bersarang dari MongoDB Atlas ke dalam BigQuery tanpa konversi perantara apa pun.

Pendekatan ini menawarkan banyak manfaat:

  • Mengurangi biaya operasional: Dengan menghilangkan kebutuhan akan transformasi data tambahan, pengguna bisa mengurangi biaya operasional secara signifikan, termasuk biaya yang terkait dengan infrastruktur, penyimpanan, dan sumber daya komputasi.

  • Peningkatan performa kueri: Penyimpanan dan mesin kueri BigQuery yang dioptimalkan dirancang untuk memproses data secara efisien dalam format JSON Native, sehingga menghasilkan waktu eksekusi kueri yang jauh lebih cepat dan performa kueri yang lebih baik secara keseluruhan.

  • Fleksibilitas data yang lebih baik: pengguna bisa dengan mudah melakukan kueri dan menganalisis struktur data kompleks, termasuk data bersarang dan hierarkis, tanpa perlu melakukan proses perataan atau normalisasi yang memakan waktu dan rawan kesalahan.

Keuntungan signifikan dari pipeline ini terletak pada kemampuannya untuk secara langsung memanfaatkan fungsi JSON BigQuery yang kuat pada data MongoDB yang dimuat ke BigQuery. Ini menghilangkan kebutuhan akan proses transformasi data yang kompleks dan memakan waktu. Data JSON dalam BigQuery dapat di-kueri dan dianalisis menggunakan kueri BQML standar.

Terlepas dari apakah Anda lebih menyukai pendekatan berbasis cloud yang efisien atau solusi praktis yang dapat disesuaikan, pipeline Dataflow bisa diterapkan melalui konsol Google Cloud atau dengan menjalankan kode dari repositori github.


Memungkinkan pengambilan keputusan berdasarkan data

Kesimpulannya, template Dataflow Google menyediakan solusi yang fleksibel untuk mentransfer data dari MongoDB ke BigQuery. Ia bisa memproses seluruh koleksi atau menangkap perubahan inkremental menggunakan fungsionalitas Change Stream MongoDB. Format output pipeline dapat disesuaikan dengan kebutuhan khusus Anda. Apakah Anda lebih suka representasi JSON mentah atau skema yang diratakan dengan kolom-kolom individual, Anda bisa dengan mudah mengonfigurasinya melalui parameter userOption. Selain itu, transformasi data dapat dilakukan selama eksekusi template menggunakan Fungsi yang Ditentukan Pengguna (UDF).

Dengan mengadopsi format JSON Native BigQuery dalam pipeline Dataflow, Anda bisa secara signifikan meningkatkan efisiensi, performa, dan efektivitas biaya alur kerja pemrosesan data. Kombinasi yang kuat ini memampukan Anda mengekstrak insight berharga dari data dan membuat keputusan berdasarkan data.

Ikuti Dokumentasi Google untuk mempelajari cara menyiapkan template Dataflow untuk MongoDB Atlas dan BigQuery.