數據倉庫介紹


  1、數據倉庫概念與用途

  數據倉庫(Data Warehouse,簡寫DW)是一個數據庫集合,存儲大量的數據,主要為企業撰寫分析報告與決策做支撐,對多樣的業務數據進行篩選整合,為企業提供一定的BI(商業智能)能力,指導業務流程改進、監視時間、成本、質量以及控制。

   數據倉庫的輸入方是各種各樣的數據源,最終的輸出用於企業的數據分析、數據挖掘、數據報表等方向。

 

  2、數據倉庫特點

    (1)主題性

  不同於傳統數據庫對應於某一個或多個項目,數據倉庫根據使用者實際需求,將不同數據源的數據在一個較高的抽象層次上做整合,所有數據都圍繞某一主題來組織。

  這里的主題怎么來理解呢?比如對於滴滴出行,“司機行為分析”就是一個主題,對於鏈家網,“成交分析”就是一個主題。

    (2)集成性

  數據倉庫中存儲的數據是來源於多個數據源的集成,原始數據來自不同的數據源,存儲方式各不相同。要整合成為最終的數據集合,需要從數據源經過一系列抽取、清洗、轉換的過程。

    (3)穩定性

   數據倉庫中保存的數據是一系列歷史快照,不允許被修改。用戶只能通過分析工具進行查詢和分析。

  (4)時變性

    數據倉庫會定期接收新的集成數據,反應出最新的數據變化。

  3、不同數據源的集成

  數據倉庫主要通過ETL來集成不同數據源,ETL全稱是Extract-Transoform-Load的縮寫,用來描述將數據從來源遷移到目標的幾個過程:

  ①Extract,數據抽取,也就是把數據從數據源讀出來。

  ②Transform,數據轉換,把原始數據轉換成期望的格式和維度。如果用在數據倉庫的場景下,Transform也包含數據清洗,清洗掉噪音數據。

  ③Load, 數據加載,把處理后的數據加載到目標處,比如數據倉庫。

   

   Hive是基於Hadoop的數據倉庫工具,可以對存儲在HDFS上的文件數據集進行查詢和分析處理。Hive對外提供了類似於SQL語言的查詢語言 HiveQL,在做查詢時將HQL語句轉換成MapReduce任務,在Hadoop層進行執行。Hive的主要優勢在於免費。

  

  HDFS:Hadoop的分布式文件系統,在這里作為數據倉庫的存儲層。圖中的Data Node就是HDFS的眾多工作節點。

  MapReduce:一種針對海量數據的並行計算框架,可以簡單理解為對數據進行分片的數據轉換和合並。

 

  4、主流的數據倉庫

   Oracle、Db2、Teradata(商業數據倉庫業界老大)

  Teradata數據倉庫配備性能最高、最可靠的大規模並行處理 (MPP) 平台,能夠高速處理海量數據,其性能遠遠高於Hive。

   它使得企業可以專注於業務,無需花費大量精力管理技術,因而可以更加快速地做出明智的決策,實現 ROI(投資回報率) 最大化。

 

 

參考:https://blog.csdn.net/bjweimengshu/article/details/79256504


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM