主要特性
面向主題
- 數據庫中,最大的特點是面向應用進行數據的組織,各個業務系統可能是相互分離的。
- 而數據倉庫則是面向主題的。主題是一個抽象的概念,是較高層次上企業信息系統中的數據綜合、歸類並進行分析利用抽象。在邏輯意義上,它是對應企業中某一宏觀分析領域所涉及的分析對象。
- 操作型處理(傳統數據)對數據的划分並不使用於決策分析,而基於主題組織的數據則不同,它們被划分為各自獨立的領域,每個領域有各自的邏輯內涵但互不交叉,在抽象層次上對數據進行完整、一致和准確的描述。
集成性
- 確定主題之后,就需要獲取和主題相關的數據。在當下企業中主題相關的數據通常會分布在多個操作型系統中,彼此分散、獨立、異構。
- 因此在數據進入數據倉庫之前,必然要經過統一與綜合,對數據進行抽取、清理、轉換和匯總,這一步是數據倉庫建設中最關鍵、最復雜的一步,所要完成的工作有:
- 要統一源數據中所有矛盾之處,如字段的同名異義、異名同義、單位不統一、字長不一致,等等。
- 進行數據綜合和計算。數據倉庫中的數據綜合工作可以在原有數據庫抽取數據時生成,但許多是在數據倉庫內部生成的,即進入數據倉庫以后進行綜合生成的。

非易失性(非異變性)
- 數據倉庫是分析數據的平台,而不是創造數據的平台。我們是通過數倉去分析數據中的規律,而不是去創造修改其中的規律,因此數據進入數據倉庫后,它便穩定且不會改變。
- 操作型數據主要服務於日常的業務操作,使得數據庫需要不斷地對數據實時更新,以便迅速獲得當前最新數據,不至於影響正常的業務運作。在數據倉庫中只要保存過去的業務數據,不需要每一筆都實時更新數據倉庫,而是根據商業需要每隔一段時間把一批較新的數據導入數據倉庫即可。
- 數據倉庫的數據反映的是一段相當長的時間內歷史數據的內容,是不同時點的數據庫快照的集合,以及基於這些快照進行統計、綜合和重組的導出數據。
數據倉庫的用戶對數據的操作大多是數據查詢或比較復雜的挖掘,一旦數據進入數據倉庫以后,一般情況下被較長時間保留,數據倉庫中一般有大量的查詢操作,但修改和刪除操作很少。
時變性
- 數據倉庫包含各種粒度的歷史數據,數據可能與某個特定日期、星期、月份、季度或者年份有關。
- 雖然數據倉庫的用戶不能修改數據,但並不是說數據倉庫的數據是永遠不變的。分析的結果只能反映過去的情況。
當業務發生變化后,挖掘出的模式會失去時效性。因此數據倉庫的數據需要隨着時間更新,以適應決策的需要。從這個角度講,數據倉庫建設是一個項目,更是一個過程。 - 數據倉庫的數據隨時間的變化表現在以下幾個方面。
- 數據倉庫的數據時限一般要遠遠長於操作型數據的數據時限。
- 操作型系統存儲的是當前數據,而數據倉庫中的數據是歷史數據。
- 數據倉庫的數據是按照時間順序追加的,它們都帶有時間屬性。
