最近在博客園上看到一篇文章,關於數據倉庫建設相關的。以前做項目一直通過PowerQuery進行數據加工處理,再使用PowerBI Desktop進行數據分析展現,沒有單獨構建數據倉庫的概念。通過這個文章找到中軟易通官網,了解一些免費的ETL工具介紹和視頻后發現原來通過ETL工具建立數據倉庫確實可以比較簡單。(注意:這里的簡單是相對的,主要還是我們需要有數據倉庫相關的知識尤其是數據倉庫維度建模,后期我會專門針對維度建模寫一個維度建模系列的文章。)
圖中我們可以看到有數據倉庫和沒有數據倉庫的區別。在進行數據分析的時候,我們總會遇到一些名詞,比如數據倉庫。數據倉庫是數據分析中一個比較重要的東西,數據倉庫是一個面向主題的、集成的、相對穩定的、反應歷史變化的數據集合。下面就給大家解釋一下數據分析中的數據倉庫。
對數據分析的理解大家應該都是比較熟悉的,數據分析的流程有很多,首先需要進行對業務的理解,然后就是對數據的理解,挖掘數據,數據處理,數據分析,數據展現,這些步驟就能夠給大家帶來一個不錯的數據分析結果。
但是數據分析中的工作最重要的就是數據處理工作,由於數據分析對數據質量、格式的要求比較高,對數據的理解也必須非常深刻,使得數據契合業務需求也要一定的過程,根據我做數據分析的經驗,在整個數據分析流程中,用於數據處理的時間往往要占據70%以上。所以,如何高效、快速地進行數據理解和處理,往往決定了數據分析項目的進度和質量。而數據倉庫具有集成、穩定、高質量等特點,基於數據倉庫為數據分析提供數據,往往能夠更加保證數據質量和數據完整性。
我們如果要做好數據分析的時候,要使用ETL工具構建數據倉庫提升數據分析效果需要從三個方面。分別是數據理解、數據質量、數據跨系統關聯。
一、數據理解
我們都知道,數據倉庫是面向主題的,所以其自身與業務結合就相對緊密和完善,更方便數據分析師基於數據理解業務。而數據倉庫是有很多的主題組成,包括了很多的數據。當我們需要對數據進行分析的時候,如果理解數據倉庫的模型,數據理解也就水到渠成了。
第二、數據質量
我們在做數據分析的時候要求數據是干凈、完整的,而數據倉庫已經對源系統的數據進行了業務契合的轉換,以及臟數據的清洗,這就為數據分析的數據質量做了較好的保障。
第三、數據跨系統關聯
數據跨系統關聯數據倉庫的一個簡單架構,各業務源系統的數據經過ETL過程后流入數據倉庫,當不同系統數據整合到數據倉庫之后,至少解決了數據分析中的兩個問題:
第一,跨系統數據收集問題,在金融分析中同一個客戶的儲蓄交易和理財交易我們在同一張事實表就可以找到;
第二,跨系統關聯問題,進行數據整合時,總是需要找到共同點來關聯來自不同系統的信息,而數據倉庫在ETL過程中就會整合相關客戶信息,完美解決跨系統關聯問題。
通過上面的內容我們不難發現數據倉庫確實能夠給大家帶來很多的幫助,大家在學習數據分析之余需要對數據分析中的數據倉庫進行了解,這樣才能夠更好地去進行數據分析工作。希望這篇文章能夠給大家帶來幫助,最后感謝大家的閱讀。
歡迎大家一起加入高效數據處理ETL交流群,一起討論數據分析前ETL過程的問題,一起學習一起成長。
掃碼加群: