本文原鏈接:什么是數據倉庫,數倉有什么特點
數據倉庫,簡稱數倉,英文名稱為Data Warehouse,可簡寫為DW或DWH。數據倉庫,是為企業所有級別的決策制定過程,提供所有類型數據支持的戰略集合。它是單個數據存儲,出於分析性報告和決策支持目的而創建。 為需要業務智能的企業,提供指導業務流程改進、監視時間、成本、質量以及控制。這里會介紹涉及的數倉數據開發技術,數倉的作用,數倉的特點等。
我簡單的做一個比喻,數據倉庫就是可以理解就是一個使用倉庫,數據就是這個倉庫的貨物,而數據倉庫的開發人員就是這個倉庫的管理員,所以數據倉庫就是一個怎么管理好數據,使得數據規范的放在倉庫中,便於BI、AI等其他的使用數據的方面可以更好的使用倉庫里面的數據,使得數據發揮出更好的價值,顯而易見在一堆有規律,整齊的貨物里面找一個東西,要比在沒有整理的里面找更加有效率。

數據倉庫是決策支持系統(dss)和聯機分析應用數據源的結構化數據環境。數據倉庫研究和解決從數據庫中獲取信息的問題。數據倉庫的特征在於面向主題、集成性、穩定性和時變性。
數據倉庫 ,由數據倉庫之父比爾·恩門(Bill Inmon)於1990年提出,主要功能仍是將組織透過資訊系統之聯機事務處理(OLTP)經年累月所累積的大量資料,透過數據倉庫理論所特有的資料儲存架構,做有系統的分析整理,以利各種分析方法如聯機分析處理(OLAP)、數據挖掘(Data Mining)之進行,並進而支持如決策支持系統(DSS)、主管資訊系統(EIS)之創建,幫助決策者能快速有效的自大量資料中,分析出有價值的資訊,以利決策擬定及快速回應外在環境變動,幫助建構商業智能(BI)。
數據倉庫之父比爾·恩門(Bill Inmon)在1991年出版的“Building the Data Warehouse”(《建立數據倉庫》)一書中所提出的定義被廣泛接受——數據倉庫(Data Warehouse)是一個面向主題的(Subject Oriented)、集成的(Integrated)、相對穩定的(Non-Volatile)、反映歷史變化(Time Variant)的數據集合,用於支持管理決策(Decision Making Support)。
數據倉庫的特點:
- 數據倉庫是面向主題的;操作型數據庫的數據組織面向事務處理任務,而數據倉庫中的數據是按照一定的主題域進行組織。主題是指用戶使用數據倉庫進行決策時所關心的重點方面,一個主題通常與多個操作型信息系統相關。
- 數據倉庫是集成的,數據倉庫的數據有來自於分散的操作型數據,將所需數據從原來的數據中抽取出來,進行加工與集成,統一與綜合之后才能進入數據倉庫;
數據倉庫中的數據是在對原有分散的數據庫數據抽取、清理的基礎上經過系統加工、匯總和整理得到的,必須消除源數據中的不一致性,以保證數據倉庫內的信息是關於整個企業的一致的全局信息。
數據倉庫的數據主要供企業決策分析之用,所涉及的數據操作主要是數據查詢,一旦某個數據進入數據倉庫以后,一般情況下將被長期保留,也就是數據倉庫中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的加載、刷新。
數據倉庫中的數據通常包含歷史信息,系統記錄了企業從過去某一時點(如開始應用數據倉庫的時點)到當前的各個階段的信息,通過這些信息,可以對企業的發展歷程和未來趨勢做出定量分析和預測。- 數據倉庫是不可更新的,數據倉庫主要是為決策分析提供數據,所涉及的操作主要是數據的查詢;
- 數據倉庫是隨時間而變化的,傳統的關系數據庫系統比較適合處理格式化的數據,能夠較好的滿足商業商務處理的需求。穩定的數據以只讀格式保存,且不隨時間改變。
- 匯總的。操作性數據映射成決策可用的格式。
- 大容量。時間序列數據集合通常都非常大。
- 非規范化的。Dw數據可以是而且經常是冗余的。
- 元數據。將描述數據的數據保存起來。
- 數據源。數據來自內部的和外部的非集成操作系統。
數據倉庫,是在數據庫已經大量存在的情況下,為了進一步挖掘數據資源、為了決策需要而產生的,它並不是所謂的“大型數據庫”。數據倉庫的方案建設的目的,是為前端查詢和分析作為基礎,由於有較大的冗余,所以需要的存儲也較大。
在具體的實踐操作中,為了更好地為數據應用服務,也就是為了數據分析,數據報表的高效開發。數據倉庫往往有如下幾點特點:
- 效率足夠高。
數據倉庫的分析數據一般分為日、周、月、季、年等,可以看出,日為周期的數據要求的效率最高,要求24小時甚至12小時內,客戶能看到昨天的數據分析。由於有的企業每日的數據量很大,設計不好
的數據倉庫經常會出問題,延遲1-3日才能給出數據,顯然不行的。- 數據質量。
數據倉庫所提供的各種信息,肯定要准確的數據,但由於數據倉庫流程通常分為多個步驟,包括數據清洗,裝載,查詢,展現等等,復雜的架構會更多層次,那么由於數據源有臟數據或者代碼不嚴謹,都可以導致數據失真,客戶看到錯誤的信息就可能導致分析出錯誤的決策,造成損失,而不是效益。- 擴展性。
之所以有的大型數據倉庫系統架構設計復雜,是因為考慮到了未來3-5年的擴展性,這樣的話,未來不用太快花錢去重建數據倉庫系統,就能很穩定運行。主要體現在數據建模的合理性,數據倉庫方案中多出一些中間層,使海量數據流有足夠的緩沖,不至於數據量大很多,就運行不起來了。
從上面的介紹中可以看出,數據倉庫技術可以將企業多年積累的數據喚醒,不僅為企業管理好這些海量數據,而且挖掘數據潛在的價值,從而成為通信企業運營維護系統的亮點之一。
廣義的說,基於數據倉庫的決策支持系統由三個部件組成
:數據倉庫技術,聯機分析處理技術和數據挖掘技術,其中數據倉庫技術是系統的核心,在這個系列后面的文章里,將圍繞數據倉庫技術,介紹現代數據倉庫的主要技術和數據處理的主要步驟,討論在通信運營維護系統中如何使用這些技術為運營維護帶來幫助。- 面向主題
操作型數據庫的數據組織面向事務處理任務,各個業務系統之間各自分離,而數據倉庫中的數據是按照一定的主題域進行組織的。主題是與傳統數據庫的面向應用相對應的,是一個抽象概念,是在較高層次上將企業信息系統中的數據綜合、歸類並進行分析利用的抽象。每一個主題對應一個宏觀的分析領域。數據倉庫排除對於決策無用的數據,提供特定主題的簡明視圖。
