數倉架構
老生常談
一個數據倉庫是一個統一的架構下組織不同數據源的異類集合。有兩種構建數據倉庫的方法:解釋自上而下的方法和自下而上的方法。
1.自上而下的方法:
基本組件討論如下:
- 外部源–
外部源是從中收集數據的源,與數據類型無關。數據也可以是結構化,半結構化和非結構化的。 - 階段區域–
由於從外部源提取的數據沒有遵循特定的格式,因此需要驗證此數據以加載到數據倉庫中。為此,建議使用ETL工具。- E(提取):從外部數據源提取數據。
- T(轉換):數據轉換為標准格式。
- L(加載):將數據轉換為標准格式后,將其加載到數據倉庫中。
- 數據倉庫–
清除數據后,將其作為中央存儲庫存儲在數據倉庫中。它實際上存儲元數據,而實際數據存儲在數據集市中。請注意,數據倉庫以這種自頂向下的方法以最純粹的形式存儲數據。 - 數據
集市–數據集市也是存儲組件的一部分。它存儲由單個權限處理的組織特定功能的信息。一個組織中取決於功能的數量可以有很多。我們也可以說數據集市包含存儲在數據倉庫中的數據子集。 - 數據挖掘–
分析數據倉庫中存在的大數據的實踐是數據挖掘。它用於借助數據挖掘算法查找數據庫或數據倉庫中存在的隱藏模式。Inmon將這種方法定義為–數據倉庫作為整個組織的中央存儲庫,並在創建完整的數據倉庫之后從中創建數據集市。
2.自下而上的方法:
- 首先,從外部來源提取數據(與自頂向下方法相同)。
- 然后,數據通過暫存區域(如上所述)並裝入數據集市而不是數據倉庫。首先創建數據集市並提供報告功能。它涉及單個業務領域。
- 然后將這些數據集市集成到數據倉庫中。
Kinball提供了這種方法,因為–首先創建了數據集市,並在創建完整的數據集市之后為分析提供了一個簡單的視圖並創建了數據倉庫。