數據倉庫是一種關系數據庫模式,其中保存了來自一個或者多個源數據庫的歷史數據和元數據。數據倉庫的目的是便於將數據的報告和分析匯總到多個層次。
或者更簡單點:是作為一個存放企業各個領域的數據的單獨且有組織的庫。
典型的數據倉庫有以下的一些特點:
涉及多個主題域
有十分詳細的信息
集合來自不同數據源的數據
不一定使用維模型,但提供維模型
另一方面,數據集市是數據倉庫的一個訪問層,用於從數據倉庫抽取相關的數據給用戶,數據集市是數據倉庫的一個子集,通常面向特定的業務線或者團隊(財政部門、市場部門、銷售部門等都有他們自己的數據集市data mart).
數據集市:一個獨立的數據集市是更大的數據倉庫的一個邏輯子集或者物理子集,通常是相互獨立的,因為數據模式和模型彼此間是不同的。微軟提出的Tabular模型則是的你可以直接從數據倉庫抽取數據而無需從數據集市抽取數據。
本人使用 Hive搭建數據倉庫,hadoop生態圈可以提供很多工具和接口進行搭建企業級數據倉庫。