數據集市(data mart)
起源:數據倉庫規模大、周期長,一些規模比較小的企業用戶難以承擔。因此,作為快速解決企業當前存在的實際問題的一種有效方法,獨立型數據集市成為一種既成事實。獨立型數據集市是為滿足特定用戶(一般是部門級別的)的需求而建立的一種分析型環境,它能夠快速地解決某些具體的問題,而且投資規模也比數據倉庫小很多。
數據集市可以理解為是一種"小型數據倉庫",它只包含單個主題,且關注范圍也非全局,數據集市也叫數據市場,是一個從操作的數據和其他的為某個特殊的專業人員團體服務的數據源中收集數據的倉庫。數據是從企業范圍的數據庫、數據倉庫中抽取出來的。重點在於他迎合了專業用戶群體的特殊需求,其面向部門級業務或某一個特定的主題、良好解決了靈活性和性能之間的矛盾。
數據集市可以分為兩種
一種是獨立數據集市(independent data mart),這類數據集市有自己的源數據庫和ETL架構;
一種是非獨立數據集市(dependent data mart),這種數據集市沒有自己的源系統,它的數據來自數據倉庫。
當用戶或者應用程序不需要/不必要/不允許用到整個數據倉庫的數據時,非獨立數據集市就可以簡單為用戶提供一個數據倉庫的"子集"。
數據集市的特征主要有:
- 1)規模小;
- 2)面向部門;
- 3)有特定的應用主題;
- 4)由業務部門定義、設計和開發;
- 5)業務部門管理和維護;
- 6)能快速實現;
- 7)購買比較便宜;
- 8)投資快速回收;
- 9)工具集的緊密集成;
- 10)提供更詳細的、預先存在的、數據倉庫的摘要子集;
- 11)可升級到完整的數據倉庫。
數據倉庫(Data Warehouse)
數據倉庫(Data Warehouse) 是一個面向主題的(Subject Oriented) 、集成的( Integrate ) 、相對穩定的(Non -Volatile ) 、反映歷史變化( Time Variant) 的數據集合用於支持管理決策。對於數據倉庫的概念我們可以從兩個層次予以理解,首先,數據倉庫用於支持決策,面向分析型數據處理,它不同於企業現有的操作型數據庫;其次,數據倉庫是對多個異構的數據源有效集成,集成后按照主題進行了重組,並包含歷史數據,而且存放在數據倉庫中的數據一般不再修改。(注:該定義來自於著名的數據倉庫專家W. H. Inmon 的著作《Buildingthe Data Warehouse》一書)。
數據集市和數據倉庫的主要區別
數據倉庫是企業級的,能為整個企業各個部門的運行提供決策支持手段;
數據集市則是一種微型的數據倉庫,它通常有更少的數據,更少的主題區域,以及更少的歷史數據,因此是部門級的,一般只能為某個局部范圍內的管理人員服務,因此也稱之為部門級數據倉庫。
|
數據倉庫 |
數據集市 |
數據的來源 |
生產系統、外部數據等 |
數據倉庫 |
范圍規模 |
企業級 |
部門級或工作組級 |
主題 |
以企業為主題 |
以部門或特殊的分析為主題 |
數據粒度 |
最細的粒度 |
較粗的粒度 |
數據結構 |
第三范式,規范化結構 |
星型模型、雪花模型、星座模型 |
歷史數據 |
大量的歷史數據 |
適度的歷史數據 |
優化 |
處理海量數據、數據探索 |
便於訪問和分析、快速查詢 |
索引 |
高度索引 |
高度索引 |
數據集市的數據建模
因為倉庫終端用戶直接與數據集市進行交互,所以數據集市的建模是捕獲終端用戶業務需求的最有效工具之一。數據集市的建模過程取決於許多因素。下面描述了三個最重要的:
數據集市的建模是終端用戶驅動的。終端用戶必須參與數據集市的建模過程,因為他們顯然是要使用該數據集市的人。因為您應期望終端用戶完全不熟悉復雜的數據模型,所以應該將建模技術和建模過程作為整體進行組織,以便使復雜性對終端用戶透明。
數據集市的建模是由業務需求驅動的。數據集市模型對於捕獲業務需求十分有用,因為它們通常由終端用戶直接使用,且易於理解。
數據集市的建模極大地受到了數據分析技術的影響。數據分析技術可以影響所選擇的數據模型的類型及其內容。目前,有幾種常用的數據分析技術:查詢和報表制作、多維分析以及數據挖掘。
如果僅僅意圖提供查詢和報表制作功能,那么帶有正規(normalized)或非正規(denormalized)數據結構的 ER 模型就是最合適的。維度數據模型也可能是較好的選擇,因為它是用戶友好的,並具有更好的性能。如果其目標是執行多維數據分析,那么維度數據模型就是這里的惟一選擇。然而,數據挖掘通常在可用的最低細節級(level of detail)工作得最好。因此,如果數據倉庫是用於數據挖掘的,就應該在模型中包含較低細節級(level of detail)的數據。
部分轉自:https://blog.csdn.net/xiaoyangsavvy/article/details/80420629