一、數據倉庫
關於數據倉庫概念的標准定義業內認可度比較高的,是由數據倉庫之父比爾·恩門(Bill Inmon)在1991年出版的“Building the Data Warehouse”(《建立數據倉庫》)一書中所提出:
中文定義:數據倉庫是一個面向主題的、集成的、相對穩定的、反映歷史變化的數據集合,用於支持管理決策。
英文定義:A data warehouse is a subject-oriented, integrated, nonvolatile, and time-variant collection of data in support of management’s decisions.
二、主題
主題是與傳統數據庫的面向應用相對應的,是一個抽象概念,是在較高層次上將企業信息系統中的數據綜合、歸類並進行分析利用的抽象。每一個主題對應一個宏觀的分析領域。在邏輯意義上,它是對應企業中某一宏觀分析領域所涉及的分析對象。面向主題的數據組織方式, 就是在較高層次上對分析對象數據的一個完整並且一致的描 述,能刻畫各個分析對象所涉及的企業各項數據,以及數據之間的聯系。所謂較高層次是相 對面向應用的數據組織方式而言的, 是指按照主題進行數據組織的方式具有更高的數據抽象 級別。 與傳統數據庫面向應用進行數據組織的特點相對應, 數據倉庫中的數據是面向主題進行組織的。主題是根據分析的要求來確定的。這與按照數據處理或應用的要求來組織數據是不同的。
三、主題域
主題域通常是聯系較為緊密的數據主題的集合。可以根據業務的關注點,將這些數據主題划分到不同的主題域。主題域的確定必須由最終用戶和數據倉庫的設計人員共同完成。
四、主題域、主題、實體間關系
主題設計是對主題域進一步分解,細化的過程。主題域下面可以有多個主題,主題還可以划分成更多的子主題,而實體則是不可划分的最小單位。主題域、主題、實體的關系如下圖所示:
五、關於主題域的爭議
曾經在看到過關於主題域的另外一個定義方式:“主題域是對某個主題進行分析后確定的主題的邊界”。相關內容如下文所示:
主題域是對某個主題進行分析后確定的主題的邊界。分析主題域,確定要裝載到數據倉庫的主題是 信息打包技術的第一步。而在進行數據倉庫設計時,一般是一次先建立一個主題或企業全部主題中的一部分,因此在大多數數據倉庫的設計過程中都有一個主題域的 選擇過程。主題域的確定必須由最終用戶和數據倉庫的設計人員共同完成。
比如,對於Adventure Works Cycle這種類型的公司管理層需要分析的主題一般包括供應商主題、商品主題、客戶主題和倉庫主題。其中商品主題的內容包括記錄超市商品的采購情況、商品 的銷售情況和商品的存儲情況;客戶主題包括的內容可能有客戶購買商品的情況;倉庫主題包括倉庫中商品的存儲情況和倉庫的管理情況等,如圖3-31所示。

圖3-31 根據業務情況確定的分析主題
確定主題邊界實際上需要進一步理解業務關系,因此在確定整個分析主題后,還需要對這些主題進行初步的細化才便於獲取每一個主題應該具有的邊界。對於圖3-31的4個主題及其在企業中的業務關系可以確定邊界如圖3-32所示。

圖3-32 主題域的划分
經過對以上內容深入分析,發現此定義與:”主題域通常是聯系較為緊密的數據主題的集合“並不矛盾,只是所站的視角不同,“數據主題集合”的觀點從數據着眼,前提是已經經過分析、梳理列出所有可能的數據主題,此處數據主題是細粒度的,是從微觀到宏觀;“邊界論”的觀點中,某個主題是分析的主題,是宏觀概念,而非數據主題。
六、未完待續
分布式數據倉庫數據存儲模型設計進行中,后續會持續更新,請關注QQ群:分布式數據倉庫建模 398419457。