BigQuery 是什麼?大數據時代一定要認識的最強資料分析工具

BigQuery 是什麼?大數據時代一定要認識的最強資料分析工具

BigQuery 是什麼?在這個強調大數據分析的時代,BigQuery 為何能享有「地表最強資料分析工具」的稱號?這次 Cloud Ace 將徹底比較 BigQuery 和傳統資料倉儲,從速度費用技術門檻等方面切入,帶大家認識這個由 Google 推出的強大雲端資料倉儲服務。

BigQuery 為何適合大數據分析?原來和「Google Ads」有關

要釐清 BigQuery 為甚麼適合大數據分析我們可以先思考一個問題:「Google 是做什麼起家的?」答案很顯而易見就是「搜尋引擎」。但這邊大家可能會困惑,「搜尋引擎不是免費嗎?那它靠什麼賺錢?」答案很簡單,搜尋引擎的收入就是大家都很熟悉的 Google Ads 關鍵字廣告 (舊稱: Google Ads )!

Google 搜尋引擎_示意圖
截圖自:Google

Google Ads 對 Google 來說有多重要?大家可以看到下圖的搜尋結果,紅框裡全都是廠商買的廣告,只有綠色部分才是真正的搜尋結果,所以可見搜尋引擎滿足全世界的用戶查詢資料的需求,於是全世界的商家都在 Google 搜尋引擎上面買廣告。

Google Ads_示意圖
截圖自:Google 搜尋頁面

而這時問題來了,Google Ads 的投放方式必須要依照使用者輸入的關鍵字、使用者所使用的語言及他所在的國家來正確投放和關鍵字相關的廣告,但像這麼大的資料量,每天有幾十億人在線上查詢,Google 到底是如何做到能夠正確投放廣告的呢?這時就要歡迎 Google 的超高速分析工具「 BigQuery」登場啦!

BigQuery 的最大優點是「速度」

BigQuery 以前在 Google 內部使用時叫做 Dremel,後來隨著 GCP 問世,它才以 BigQuery 為名被正式推出。那它到底有多快呢?下面這張圖相信可以讓大家清楚理解

BigQuery 分析速度_示意圖

圖中1000億筆,總共4TB的資料,使用需要消耗大量資料的模糊比對語法,以及複雜的 Group By 和 Order By 語法,大家注意看右下角的數字,會發現竟然只要23秒就能分析完成!

那現在我們回想一下,自己目前使用的資料倉儲或是分析工具有沒有像他如此強大?是不是常要跑個2小時,而這段時間也不能做其他事,就是去喝杯咖啡再回來看結果。萬一分析的命令下錯,這2小時可能就白白浪費掉了!

BigQuery 真的比傳統資料倉儲好?4大面向完整評比

透過上面的介紹,相信大家都認識到 BigQuery 分析的「快速」,但它被稱為地表最強資料分析工具當然不只是因為速度快!所以下面我們會從4種不同角度,將傳統資料倉儲的一些特性與 BigQuery 來做一個完整的比較。

資料倉儲系統比較面向1:軟硬體設備

傳統上我們通常是在公司內部建置機房,然後花大量的金錢購買軟硬體設備後再進行軟硬體的安裝。而這整套流程從開始到分析資料,可能已經過了大半個月。但如果直接使用無伺服器的 BigQuery,我們只要上傳 CSV 格式的資料就可以馬上開始分析,在速度上絕對是遠遠超過傳統的資料倉儲的!

傳統機房_示意圖
圖片來源:Unsplash

資料倉儲系統比較面向2:技術門檻

大部分資料分析人員可能原本就從事資料庫相關的,所以本身就會一些 SQL 語法。但為了分析資料可能要再學 Python、R,或是 BI 相關的技術,這些都是隱形的學習成本。但使用 BigQuery,我們只要會標準的 SQL 語法就可以立即開始分析資料,直接現省額外學習的時間和金錢。

BigQuery SQL 語法_示意圖
截圖自:BigQuery 操作頁面

資料倉儲系統比較面向3:資源擴充

我們使用傳統工具來分析資料時,如果資源不夠就必須額外再花錢去採購軟硬體來加強分析效能。但如果用 BigQuery,這些事情通通都不用做!因為 BigQuery 會把分析工作交給資料中心內的數十台或數百台機器同時運算,完成後再快速匯總起來交到我們手上。所以整個過程我們只要等待即可,不需要花時了解他到底是怎麼做到的。

BigQuery 運算方式_示意圖
BigQuery 採用「分散式運算」

資料倉儲系統比較面向4:費用成本

若我們選擇傳統的軟體分析工具,一開始建置可能就要花幾十甚至幾百萬,但是未來到底會用到多少,這是不確定的,我們可能會碰到資源不夠或買太多造成閒置浪費的問題。但 BigQuery 因為是以使用量為基礎,根據每個月分析的資料量來計費,所以能幫我們避開上述問題,有效節省成本!

BigQuery 如何節省成本_示意圖
圖片來源:CLOUDIAN
©2021 All Right Reserved.

舉例來說,有時候一個月內分析很多資料付了1萬元,但兩個月後又沒有分析的需求,這樣是不用再付費的!如此一來我們就不用在一開始就花費大量金錢,讓花費的管理更具彈性,減低財務上的負擔。而根據上述比較,可以得到下圖的總結。

BigQuery 特色_示意圖
還有押韻是不是很好記呢!

另外再補充一下,大家如果擔心每次 Query 整張表格成本太高,可以建立分割表 Partitioned Table,以日期做 Where 條件就不會 Query 整張表格,可以有效節省大量成本喔!

BigQuery 資料分割_示意圖
BigQuery 可使用分割表降低分析成本
Data_Studio_示意圖

最後提醒大家,如果缺乏報表工具,可以直接使用 Data Studio。它除了 Query 外沒有額外費用。詳細教學可以參考《BigQuery串接Google sheet的初階應用以及Data Studio的視覺化功能介紹》這篇文章!

看完以上介紹後有沒有覺得 BigQuery 真是優點多多,不愧對它「地表最強分析引擎」的稱號呢!除了以上分享給大家的資料,我們也有提供各項大數據分析服務及教育訓練,有任何問題或需求都歡迎聯絡我們喔!

延伸閱讀:

BigQuery 與 Data Studio 的經緯度資料分析
BigQuery –匯入資料 part 1
BigQuery SQL語法基本操作 part 1
BigQuery串接Google sheet的初階應用以及Data Studio的視覺化功能介紹

Cloud Ace 研討會主頁

Aaron Lee

超過7年的 Google Cloud 經驗,服務過上百家 Google Workspace 與 GCP 客戶,擔任多次研討會主講人與教育訓練講師,提供架構諮詢與技術支援,幫助各大企業上雲。

發佈留言