什么是數據倉庫?


  這些天在實習,公司要做數據分析,要先建立數據倉庫。但是經常有人問我做什么,我回答數據倉庫都不是特別明白是什么東西,我也不知道應該怎么更好的表述。因此我決定通過這篇文章好好解釋一下什么是數據倉庫。

  按照官方解釋:數據倉庫,英文名稱為Data Warehouse,可簡寫為DW或DWH。數據倉庫,是為企業所有級別的決策制定過程,提供所有類型數據支持的戰略集合。它是單個數據存儲,出於分析性報告和決策支持目的而創建。 為需要業務智能的企業,提供指導業務流程改進、監視時間、成本、質量以及控制。(寫得挺牛逼以至於我根本理解不了)

 一、提出問題

  為了更好地理解,在這里先提幾個問題。

  1、如果你要的數據分別存放在很多個不同的數據庫,甚至存在文本文件,excel 中,你要如何獲取這些數據?

  2、如果你從這些數據源中取出了你要的數據,但是發現格式不一樣,或者數據類型不一樣,你要怎么規范?

  3、如果有一天你需要查歷史數據,但你發現這些數據被修改過的,你要怎么辦?

  4、如果你是一個只會簡單查詢的人,你想從復雜的數據庫中獲取數據,應該怎么辦?

  5、如果你有一個關於城市人口的數據庫,你想知道“某個鎮學歷分布情況”,要怎么快速高效地得知呢?

 二、解決問題

  為了解決上面幾個問題,數據倉庫就誕生了,從邏輯上理解,數據庫和數據倉庫沒有區別,都是通過數據庫軟件實現存放數據的地方,只不過從數據量來說,數據倉庫要比數據庫更龐大德多。數據倉庫主要用於數據挖掘和數據分析,輔助領導做決策。

  構建數據倉庫的過程是將不同數據源的數據整合起來,通過對數據進行清洗,規范化數據;根據需求圍繞一個主題進行構建;並且構建好的數據倉庫不用於UPDATE,僅用於查詢;構建好的數據倉庫也方便獲取數據,節省了一定的資源。

                  

三、特點

  那么接下來數據倉庫的特點就比較容易理解了。

 1、集成性

  數據倉庫中存儲的數據是來源於多個數據源,原始數據在不同數據源中的存儲方式各不相同。要整合成為最終的數據集合,需要從數據源經過一系列抽取、清洗、轉換的過程。

 2、穩定性

  數據倉庫中保存的數據是歷史記錄,不允許被修改。用戶只能通過分析工具進行查詢和分析。

 3、動態性

  數據倉庫數據會隨時間變化而定期更新,不可更新是針對應用而言,即用戶分析處理時不更新數據。

 4、主題性

  傳統數據庫對應項目不同,數據倉庫根據需求,將不同數據源的數據整合,所有數據都圍繞某一主題。比如“分析某個地區人口的學歷”、“企業的注冊資本”這樣類似地主題。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM