數倉簡介


數據倉庫之父比爾·恩門(Bill Inmon)在1991年出版的“Building the Data Warehouse”(《建立數據倉庫》)一書中所提出的定義被廣泛接受,數據倉庫是一個面向主題的(Subject Oriented)、集成的(Integrate)、相對穩定的(Non-Volatile)、反映歷史變化(Time Variant)的數據集合,用於支持管理決策

OLTP:on-line transaction proccessing,聯機事務處理,主要是業務數據,需考慮高並發,考慮事務。主要應用於關系型數據庫

OLAP:on-line analytical proccessing,聯機分析處理,主要面向復雜分析,會產生大量查詢,很少增刪改。主要應用於數據倉庫

數倉是一個環境。目的是為了讓用戶更快,更方便的查詢索要的信息,提供決策支持。

 

數倉按主題進行組織-面向主題,對原有分散的數據庫數據抽取,清理的基礎上經過系統加工,匯總,整理得到。必須消除源數據的不一致性以保證數倉內的信息是關於整個企業一致的全局信息-集成。一旦數據進入數倉,將長期存在,並被用戶大量查詢,修改和刪除操作很少-穩定。數倉一般包括企業從某一時點到目前各個階段的信息。可對企業發展做出定量分析和預測-反映歷史變化

對不同數據存儲方式的訪問能力是數據抽取工具的關鍵,應能生成Cobol程序,MVS作業控制語言,UNIX腳本,SQL語句,用以訪問不同的數據。

數據轉換包括:刪除對決策沒有意義的數據字段,轉換統一的數據名稱和定義,計算統計和衍生數據,給缺值數據賦給缺省值,統一不同數據定義方式

元數據是描述數據倉庫內數據的結構和建立方法的數據。可將其按用途的不同分為兩類,技術元數據商業元數據

  技術元數據是數據倉庫的設計和管理人員用於開發日常管理數據倉庫用的數據。包括:數據源信息;數據轉換的描述;數據倉庫內對象和數據結構的定義數據清理和數據更新時用的規則源數據到目的數據的映射用戶訪問權限,數據備份歷史記錄,數據導入歷史記錄,信息發布歷史記錄等。

  商業元數據從商業業務的角度描述了數據倉庫中的數據。包括:業務主題的描述包含的數據、查詢、報表;

  元數據為訪問數據倉庫提供了一個信息目錄(informationdirectory),這個目錄全面描述了數據倉庫中都有什么數據、這些數據怎么得到的、和怎么訪問這些數據。是數據倉庫運行和維護的中心,數據倉庫服務器利用他來存貯和更新數據,用戶通過他來了解和訪問數據。

數據集市:從數據倉庫中獨立出來的一部分數據,針對用戶特定需求得出的

數據倉庫管理:安全和特權管理;跟蹤數據的更新;數據質量檢查;管理和更新元數據;審計和報告數據倉庫的使用和狀態;刪除數據;復制、分割和分發數據;備份和恢復;存儲管理

信息發布系統:把數據倉庫中的數據或其他相關的數據發送給不同的地點或用戶。基於Web的信息發布系統是對付多用戶訪問的最有效方法

數據倉庫的設計步驟

  1)選擇合適的主題(所要解決問題的領域)。

  2)明確定義fact表

  3)確定和確認維

  4)choosing the facts

  5)計算並存儲fact表中的衍生數據段

  6)rounding out the dimension tables。

  7)choosing the duration of the database。

  8)the need to tracks lowly changing dimensions。

  9)確定查詢優先級和查詢模式。

  2、數據倉庫的建立步驟

  1)收集和分析業務需求。

  2)建立數據模型和數據倉庫的物理設計。

  3)定義數據源。

  4)選擇數據倉庫技術和平台。

  5)從操作型數據庫中抽取、凈化、和轉換數據到數據倉庫

  6)選擇訪問和報表工具。

  7)選擇數據庫連接軟件。

  8)選擇數據分析和數據展示軟件。

  9)更新數據倉庫 。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM