立即實踐大數據分析應用!步驟、工具、目標建議一次了解

立即實踐大數據分析應用!步驟、工具、目標建議一次了解

大數據分析應用有哪些方向?分析步驟和工具又有哪些?這次 Cloud Ace 除了統整大數據分析應用的常見目標、步驟及工具,還針對不同應用目標歸納出相關建議。快跟著我們一起用 Google Cloud Platform(GCP)實踐大數據分析應用吧。

大數據分析應用―迷思

大數據分析為近年來最熱門的領域之一,隨著運算科技發展、資料量急速成長,和儲存設備成本降低等趨勢,大數據分析已脫離單純的資料處理,進化為協助企業擴展思維及商業模式,並進一步預測未來的工具。

因此,很多一頭熱地跟上這股熱潮的人並不清楚自身的分析需求,縱使已有分析目標,也多面臨不知道或不熟悉該使用哪些工具等問題,導致分析最後無疾而終。而除了分析目標外,充足的資料量也是不可或缺的要素。所以,要達成完善且精確的大數據分析,明確的目標和足量的資料是缺一不可的。

大數據分析應用迷思_示意圖
圖片來源:pixabay

因此本文將主要根據上述應用迷思,提供各位分析資料前需思考的問題,了解當前是否已具備明確的分析目標。另外也會分享 Google Cloud Platform(GCP)上有關大數據分析的服務,並針對三大常見應用目標提供解決方案建議。

大數據分析應用目標

大數據分析和一般的資料分析一樣需要一個明確的目標來推動,而若缺乏目標,最後分析的結果不僅可能無法為企業帶來價值,過程中投注的金錢、人力和時間也會付諸流水。因此 Cloud Ace 在此為大家整理出三個資料分析中主要的應用目標類型,讓各位可在著手分析資料前,先確認自身目前的需求,在資料分析的路上少走一些冤枉路。

現狀分析

首先,在思考分析目標時如毫無頭緒,可先從現狀分析著手,透過數據了解當前狀況。現狀分析簡單來說就是單純透過公司歷史資料,了解到過去幾年發生過的事情,並進一步洞察公司現階段整體的營運狀況。

大數據分析應用目標_現狀分析

比如我們想知道過去一年公司每個月的利潤,就可藉由繪製利潤走勢圖,查看這一年內公司整體營運狀況是正成長還是負成長。又比如想了解 Q1~Q2 產品的銷售狀況,可繪製圓餅圖來查看各項產品的銷售佔比,掌握在 Q1 及 Q2 這兩季度內,銷售量最高和最低的產品分別為何。另外現狀分析也是許多大數據解決方案的基礎(如:全方位顧客輪廓分析),如果有綜合多種分析目標的需求,歡迎進一步參考 Cloud Ace 提供的客製化專案開發服務,打造更彈性多樣化的分析專案。

原因分析

因為現狀分析只能觀察到整體性的結果,所以想深入了解導致這些結果的原因,就必須進一步做原因分析。因此所謂的原因分析,就是透過分析可能導致現狀分析結果的因素,去推斷當下整體結果背後的具體原因,協助企業以「治本」的方式解決問題或下決策。

沿用前一段的例子,假設我們透過現狀分析發現公司整體利潤在近一年內下降5%,而利潤因為與公司的營收及營業成本息息相關,所以在執行原因分析時就可藉由分析營收與成本的相關數據,探究導致整體利潤下降的原因為何。在這個例子中,營收相關數據包含商品價格、銷售量和銷售折扣等;而成本相關數據則有店租、材料價格與員工薪水等。這些項目在資料集中都應有相對應的欄位,所以分析時可分別從這些欄位下手。

大數據分析應用_示意圖
圖片來源:freepik

最後,分析結果除了可單純透過折線圖、柱狀圖或圓餅圖呈現,也可兩兩比較,觀察不同數據彼此間是否存在相依性。假設我們發現產品銷量和人力成本皆與利潤成正比,就可思考在人力成本不變的情況下,利潤降低原因可能是銷量降低。反之如果銷量不變,則可進一步研究人力成本的哪個因素是影響利潤的主因。

預測分析

原因分析可協助企業制定決策,而預測分析則是評估決策的重要工具。不論是要確保新決策實質上能為公司帶來正面影響,亦或只是單純依據現階段的策略來預測未來(幾秒、幾天或幾年後)的趨勢或行為,預測分析都有其必要性,因為它可用來簡化作業流程、提高收益及降低風險。

舉例來說,倘若我們透過原因分析發現利潤降低的主因是庫存成本提高,那利用預測分析模型預測產品庫存,就更能確保公司針對降低產量(例:從每月生產1,000個滑鼠降至每月生產850個滑鼠)所下的決策是合理且適當的。

又比如公司推出新產品時想預測哪類舊客群購買意願較高,也可透過預測分析篩選出可能會對新產品感興趣的顧客,寄送 EDM 並附上舊客專屬回饋來更精準地誘導回購。因此無論是運用統計演算法、預測模型或是機器學習等方式,預測分析都可協助企業更精準地洞見未來、規劃決策,以及挖掘過去不曾注意到的潛在商機。

大數據分析應用―步驟

具備分析目標與足量資料後,就可著手準備分析資料了,以下將分別介紹大數據分析的四大步驟:資料前處理、資料儲存、資料分析和資料視覺化。另外也會同時帶大家了解 GCP 上有哪些產品可滿足以上四個步驟,以及不同產品的搭配條件有哪些。

大數據分析步驟_流程圖

資料前處理(ETL)

首先,我們最初拿到的資料集通常都是原始資料(Raw Data),而這些 Raw Data 是不能被拿去做任何分析的!因為未經處理的 Raw Data 常會有資料格式不正確、不一致、空值很多,或編碼錯誤等問題,也就是所謂的髒數據。因此,在執行大數據分析時,資料前處理往往會花費許多時間,透過了解整份資料每個欄位所代表的意義,進而根據這些欄位決定該如何處理與清洗,讓整份資料集變成一份可分析的資料,步驟雖然繁瑣但也至關重要。

大數據分析應用_示意圖
圖片來源:freepik

資料前處理其實就是大家耳熟能詳的 ETL(Extract, Transform, Load),在 GCP 上,除了可單純使用 BigQuery,還可再搭配 Cloud DataflowCloud Pub/Sub。針對即時資料(Streaming Data),資料產生時會觸發 Cloud Pub/Sub 並立即透過 Cloud Dataflow 加以處理。而針對批次資料,則可透過外部工具或自行撰寫的排程程式,將資料傳送到 Cloud Storage(GCS)後,再由 Cloud Dataflow 進行資料處理(詳見下圖)。

其中 Cloud Dataflow 屬於全代管的資料處理服務,不僅可自動安排資料處理流程、部署及管理資源處理作業,還可藉由水平調度工作站資源,提高資源使用率以符合成本效益。另外諸如 DataprepDataprocData Fusion,也都是 GCP 上實用的資料處理工具,下面簡單介紹這三項工具的用途。

首先,Dataprep 可透過圖形介面(無需編寫程式碼)瀏覽、清理及準備相關資料(結構化與非結構化資料),也能處理任何規模的資料,自動偵測結構定義、資料類型及異常(如缺值、離群值和重複值),此外還會建議及預測最合適的資料轉換作業。而 Dataproc 則像是 GCP 上的「全代管式」 Apache Hadoop、Spark 叢集。最後,Data Fusion 和 Dataprep 一樣提供圖形介面,使用者無須編寫程式碼就可部署 ETL/ELT 資料管道(Data Pipeline)。

資料儲存

透過 GCP 完成自動化處理與清洗資料後,就可以將這些乾淨的資料匯入資料倉儲(Data Warehouse)中,也就是 ETL 中的 L(Load)。有人也許會問,為什麼不直接把 Raw Data 放入資料倉儲清洗後再做分析呢?原因其實很簡單,因為資料倉儲主要是存放乾淨、Schema 一致(準備被分析)的資料;資料湖(Data Lake)才主要用來存放來自不同來源的 Raw Data,保留資料原始格式。所以資料倉儲基本上只負責分析而不負責清洗。

大數據分析工具_資料倉儲
圖片來源:pixabay

在 GCP 上,GCS 及 BigQuery 是兩大最常用的資料儲存服務。通常,GCS 會被作為 Data Lake 使用;BigQuery 則被作為資料倉儲使用。其中 BigQuery 屬於無伺服器服務(Serverless Service),不僅容易管理,還具備 SQL 查詢介面,此外也支援即時(Streaming pipeline)或批次(Batch pipeline)的資料匯入。想查看更詳細的介紹可以參考《BigQuery 是什麼?大資料時代一定要認識的最強資料分析工具》一文。

資料分析

有乾淨的資料儲存在資料倉儲後就真的可以開始分析了!如果不是太複雜的分析,可直接利用 BigQuery 的 SQL 查詢介面分析資料,或使用標準 SQL 語法建立或執行機器學習(Mechine Learning,ML)模型。另外,前面提到的資料處理工具 Dataflow 和 Dataproc ,也都能作為資料分析的輔助。Dataflow 有即時 AI 功能,可建構各種智慧解決方案,包含預測分析、異常偵測、即時個人化和其他進階分析用途等。而 Dataproc 則可透過 Apache Spark ML 執行機器學習,或搭配 BigQuery 進行分析。

大數據分析 AI 應用_示意圖
圖片來源:pixabay

最後,GCP 也有推出預測分析所需的相關服務,除了上述所提的 BigQuery ML,Vertex AI 與 AutoML 的搭配也很推薦!因為我們不用會寫 Code,就可快速建立與訓練模型。如要以自訂工具建立 ML 模型,也能用少少的 Code 訓練出好模型,使用門檻低之外成效也很顯著。

資料視覺化

最後,在資料視覺化上最常使用的就是 Data Studio。易於理解的互動式 Dashboard 圖像報表讓我們可以在一份報告中即時比較、過濾和組織所需要的確切資料。另外,Data Studio 可連接的資料來源端也很豐富,除了 Google 本身的 BigQuery、Cloud SQL 和 Google Sheet,也支援 AWS 的 Redshift。若想了解如何將資料串接 Data Studio,可參考《BigQuery 串接 Google sheet 及 Data Studio 視覺化功能教學》。

資料視覺化_Data Studio 介面
Data Studio 介面
截圖自:Google Data Studio 官網|©2022 Google

大數據分析應用―建議

以上分別介紹了大數據分析的目標類型,和 GCP 上的資料處理工具,但兩者該如何搭配呢?三大分析目標分别適合使用哪些工具?以 ETL 這個環節為例,即使建立了自動化 Data pipeline,但根據分析情境不同,ETL 的架構也會大相逕庭。因此,以下提供大數據分析三大目標建議採用的解決方案,幫助大家在確立目標後,能快速掌握架構雛形和後續可能會用到的工具。

現狀分析的建議

以現狀分析這個目標來說,因為需分析的主要都是公司歷史資料(比如:近一年的每月利潤),基本上不會處理到 Streaming Data,也不會涉及到太複雜的分析語法,所以在資料做完 ETL 匯入 BigQuery 後,再透過 BigQuery 中 SQL 查詢介面裡的 SQL 語法分析就可以了。最後,只要再將結果匯入 Data Studio,就能產出折線圖或圓餅圖等視覺化報表。

大數據分析應用建議_現狀分析

原因分析的建議

而原因分析其實與現狀分析狀況類似,所以也可以單純使用 BigQuery 分析,再用 Data Studio 做視覺化圖表。但因為造成現狀分析結果的因素可能有百百種,像是營收來源和營業成本就各自涵蓋了許多因素,因此在做原因分析時,可能會用到大量的 SQL 查詢。而使用 BigQuery 查詢很容易忽略的盲點就是收費方式,BigQuery 的其中一項收費標準是「查詢量」,所以在資料匯入時建議先建好分割表(Partitioned Tables),再透過篩選條件(例如:WHERE 語法)減少查詢範圍,將查詢量控制到最小,避免帳單出現預期外的高額費用。

預測分析的建議

最後,預測分析因為會預測公司未來的利潤趨勢、成長幅度、成本花費和銷量等內容,所以可能會用到機器學習或演算法等工具。如果預算有限,建議可直接在 BigQuery 使用 BigQuery ML ,或如果本身熟悉且有在使用 Spark,也可以利用 Dataproc 進行 Spark ML 機器學習,提高數據預測精準度。

以上介紹了大數據分析常見的目標、基本的分析流程和相對應的 GCP 產品,最後也分享了不同分析目標的解決方案建議。想更了解如何完整匯入、分析和呈現資料,可參考《如何透過 Firebase 與 BigQuery 來進行分析》這篇文章。有客製化的大數據分析需求,可參考我們的數據分析方案,或直接聯繫我們獲得更多資訊!

延伸閱讀:

BigQuery 是什麼?大數據時代一定要認識的最強資料分析工具
BigQuery 教學―操作界面與分析、視覺化步驟完整圖解
BigQuery SQL 語法基本操作 part 1
BigQuery –匯入資料 part 1
如何掌握GCP各台主機的成本?利用BigQuery的Label語法教學

Cloud Ace 研討會主頁

Julia Kuang

現為 Cloud Ace 的解決方案架構師。熟悉 GCP 雲端服務。在大數據分析及機器學習均有涉獵。提供企業雲端架構諮詢與技術支援。

發佈留言