Penggunaan Cloud Storage dari
Google Cloud Platform (GCP) membantu Anda menyimpan data dengan aman dan mengintegrasikan penyimpanan ke dalam aplikasi Anda. Untuk analisis real-time dari objek Cloud Storage, Anda bisa menggunakan BigQuery GCP. Ada banyak opsi untuk melakukan streaming data dari bucket
Cloud Storage ke dalam tabel
BigQuery. Kami telah menyusun panduan solusi terbaru untuk membantu Anda melakukan streaming data dengan cepat ke BigQuery dari Cloud Storage. Kami akan membahas dalam postingan ini cara menyalin objek yang baru dibuat secara kontinu di Cloud Storage ke BigQuery menggunakan Cloud Functions.
Penggunaan Cloud Functions memungkinkan Anda mengotomatiskan proses penyalinan objek ke BigQuery untuk analisis cepat, yang memungkinkan Anda mendapatkan akses hampir real-time ke data yang diupload ke Cloud Storage. Ini berarti Anda bisa memperoleh informasi yang lebih baik dengan lebih cepat, dan merespons lebih cepat terhadap event yang terjadi dalam bisnis Anda.
Cloud Functions adalah platform komputasi GCP tanpa server yang digerakkan oleh event, yang menyediakan automatic scaling, ketersediaan tinggi, dan toleransi kesalahan tanpa membutuhkan server untuk menyediakan, mengelola, mengupdate, atau melakukan patch. Streaming data menggunakan Cloud Functions memungkinkan Anda menghubungkan dan memperluas layanan GCP lainnya, dan membayar hanya ketika aplikasi sedang berjalan.
Perhatikan bahwa kita juga bisa melakukan streaming data ke BigQuery menggunakan
Cloud Dataflow. Cloud Dataflow menggunakan framework
Apache Beam, yang menyediakan analisis dasar sesi dan jendela, serta ekosistem konektor sink dan sumber dalam Java, Python, dan beberapa bahasa lainnya.
Namun, jika Anda tidak mahir dalam Apache Beam API dan mencoba untuk menyerap file tanpa mempertimbangkan jendela atau transformasi kompleks, seperti streaming file kecil langsung ke dalam tabel,
Cloud Functions adalah opsi sederhana dan efektif.
Anda juga bisa memilih menggunakan Cloud Dataflow (Apache Beam) untuk ETL kompleks dan set data besar, dan Cloud Functions untuk file kecil dan transformasi yang lebih sederhana.
Cara kerja solusi Cloud Functions
Diagram arsitektur berikut menggambarkan komponen dan alur pipeline streaming yang dibuat dengan Cloud Functions. Pipeline ini mengasumsikan bahwa Anda mengupload file JSON ke dalam Cloud Storage, jadi Anda harus melakukan perubahan kecil untuk mendukung format file lainnya.