數據倉庫建設
商務智能(Business Intelligence)用於支持制定業務決策的技能、流程、技術、應用和實踐。核心是通過數據提取、整理、分析,最終通過分析結果制定有關策略、規划,幫助企業了解新的趨勢、抓住新的市場機會、發現潛在的威脅,達到資源的合理配置,節約成本提高效益。數據倉庫是商業智能的基礎,它為OLAP、數據挖掘提供分析和決策支持。
一、 數據倉庫概念
1. 數據倉庫定義
是一個面向主題的、集成的、相對穩定的、反映有有歷史變化的數據集合,用於支持管理決策。具有以下特點:
- l 詳細交易及相關業務數據的集合
- l 包含必要的內部與外部信息
- l 來自於多個數據源、業務操作系統
- l 保存一定的時間周期
- l 按照企業內業務規則決定存儲模型
2. 建設的必要性
目前大多數信息系統由於建設時間、建設方、各階段需求不同,會出現一系列問題:缺乏整體規則、信息缺乏完整性、缺乏統一的信息管理標准和規范、信息孤島、不具備大容量的數據管理和分析能力。
3. 價值
- l 提高管理決策的科學性和管理效率
- l 信息的整合,可推動現在有信息管理體系的重構
- l 打通信息孤島全局共享,降低數據獲取的難度
- l 逐漸取代各類業務管理報表系統
- l 運用歷史數據發現規律
二、 數據倉庫建設
1. 業務需求定義
梳理出所有業務過程,分析業務內容提取需求,對其相關的數據進行探查,並對各系統核心業務人員訪談,准確的了解業務需求情況,近期調研
2. 技術體系結構
生命周期圖

技術架構圖:

3. 數據倉庫數據建模
數據模型是抽象描述現實世界的一種方法,是通過抽象的實體及實體之間的聯系來表示現實世界中事務的相互關系的一種映射,數據倉庫模型是數據模型中針對特定的數據倉庫應用系統的特定模型。數據倉庫建模方法種類較多,常見的三種是范式建模、維度建模、實體建模,每種方法本質上都是從不同的角度解決業務中的問題。
關於數據倉庫建模單獨用一篇來詳細介紹,這兒僅對維度建模做基本的介紹,維度建模由數據倉庫領域另一位大師Ralph Kimall所倡導,是數據倉庫工程領域最流行的數倉建模經典。維度建模以分析決策的需求出發構建模型,構建的數據模型為分析需求服務,因此它重點解決用戶如何更快速完成分析需求,同時還有較好的大規模復雜查詢的響應性能。
1. 維度模型是什么
維度建模將客觀世界划分為度量和上下文。度量是由業務過程和支持它們的業務源系統來捕捉的,常常以數據值形式出現,將其稱作“事實”,事實由大量上下文包圍着,這些文本形式的上下文被直觀地分割成多個獨立的邏輯塊,我們稱其為“維”。維度描述了度量上下文的5W(who、what、when、where、why)信息,以及這些上下文是如何作用的。
企業的每一個業務過程都可以用維度模型來描述,維度模型由一系列含有數值量度量的事實表組成,事實表中的數值則被一系列帶有文本屬性的維度表環繞。
2. 維度建模的基本要素
1) 事實表
事實表是存儲業務活動或事件所產生的度量。
2) 維度表
維度是觀察業務的角度,維度表記錄這一角度的一系列屬性集合。
3) 度量
度量是關於業務狀況的數值。
3. 企業數據倉庫總線
列表示所有維度,行表示所有業務過程,如圖:

4. 維度建模四步驟
1) 選擇業務過程(比如:促銷活動、評選活動、產品交易等)
2) 聲明粒度(確定數據單位的綜合程度)
3) 識別維度(粒度已經確定了一個基本的維度集合,根據需要再添加其他相關的維度)
4) 識別事實(選擇適合業務過程的指標)
5. 深入理解維度
- l 代理關鍵字、退貨維、緩慢變化維、角色扮演維、雜項維、、雪花型、橋接多值維、處理層次結構。
- l 可加型事實、半加型事實、狀態事實
- l 三種事實表(三個基本粒度):事實事實表(低粒度)、周期快照事實表(粒度高)、周期累計事實表
三、 數倉管理
4. 數據質量
5. 數據轉換加載(ETL過程)
數據抽取考慮使用Ketlle6.1源碼來做,部署在MyEclipse中做一些外圍的開發,核心數據處理工作由Kettle完成,對於特殊的需求,可以自定義開發。
6. 元數據管理
7. 安全及備份
利用數據倉庫自帶的備份功能。
四、 系統開發
物理數據庫建設、ETL工具開發、數據抽取清洗作業開發、查詢優化、出報表等[l1] 。
五、 應用開發
需求調研后補充。
六、 迭代優化
螺旋式上升,永無止境……
[l1]概要、詳細設計寫
