數據倉庫架構分層


數據倉庫簡介:有些人不理解數據倉庫,認為數據倉庫就是獲取數據,只要會使用hadoop、spark等大數據工具就懂數據倉庫,這樣的認識太片面。如果要從海量數據中總結出一個報表或者是多個報表,大數據工程師足以;如果在有限的資源動態的數據情況下,向前可歷史追溯,向后對不斷增加的報表實現兼容,這就需要一套科學的數據管理方法。數據倉庫是一門數據管理的科學,數據倉庫的核心就是計算、存儲和維護之間的博弈。
 
標准的數據倉庫分層:sd(源數據層),ods(中間存儲層),dw(多維數據層),dm(數據集市層),app(應用層)
 
源數據層:源數據一般具有多來源、多類型特征,可能使用多種數據庫,甚至是非結構化數據,是數據倉庫中數據最復雜的一層,需要工程師對多種數據庫多種數據類型都有一定了解。
中間存儲層:中間層數據和源數據基本保持一致,保存着最細粒度的數據。中間層可以說是數據倉庫最重要的一層,是所有后期分析的數據基礎。中間存儲層一般存放所有的明細數據,具有數據量大,查詢計算較慢的特點。
多維數據層:多維數據層是經過清洗的,有價值的數據。多維數據層是在存儲層的基礎上清洗臟數據、刪選有價值數據,並且對存儲層的事實維度表進行事實維度分離。與中間存儲層相比,多維數據層與存儲層有着相同的數據粒度,但是具有更小的數據量、更快的查詢速度。
數據集市層:它是面向主題輕度匯總的數據,在某主題的最細粒度數據,能滿足該主題所有需求。數據集市是按照某一主題匯總,既可以由多維數據層匯總,也可是其他集市表進一步匯總,通常是星狀、雪花狀數據和網狀模型。數據集市層主題明確,極大減少使用方理解及使用成本
應用層:這一層就是大家看到的各種報表,一般都是在數據集市基礎上按照各種特定維度匯總的結果。應用層是面向用戶的,數據具有極快的響應速度。
 
 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM