1.數據倉庫是從底層數據收集、ETL、數據存儲、數據整理存儲等的一套流程。
2.數據庫我理解是數據倉庫的一部分,我理解它是數據集市的組成部分,多個數據庫組成一個數據庫,多為關系型數據庫。
3.因為數據倉庫是個大工程,在建之前要想好按照什么架構來組織數據,這就分為了星型結構、雪花結構、星座模型等。
4.除了從架構上來划分,不同行業的業務需求不同,需要記錄的字段不同,也就要針對不同行業分別設置一套存儲的字段,
十大主題是針對金融行業而言經常提的,比如有:當事人、產品、協議、事件、資產、財務、機構、地域、營銷、渠道。
5.數據倉庫的架構和數據倉庫的主題是對數據倉庫描述的兩個維度。
數據倉庫的定義:
*數據倉庫是將多個數據源的數據經過ETL(Extract(抽取)、Transform(轉換)、Load(加載))理之后,按照一定
的主題集成起來提供決策支持和聯機分析應用的結構化數據環境。
數據倉庫VS數據庫:
- 數據庫是面向事務的設計,數據倉庫是面向主題設計的
- 數據庫一般存儲在線交易數據,數據倉庫存儲的一般是歷史數據
- 數據庫設計是避免冗余,采用三范式的規則來設計,數據倉庫在設計是有意引入冗余,采用反范式的方式來設計
- 聯機事務處理OLTP是傳統的關系型數據庫的主要應用,主要是基本的、日常的事務處理,例如銀行交易。代表的是mysql
- 聯機分析處理OLAP是數據倉庫系統的主要應用,支持復雜的分析操作,側重決策支持,並且提供直觀易懂的查詢結果。
常規的數據倉庫架構:
數據倉庫分層:原始層、操作層/ODS層/貼源層、明細層、匯總層、公共維度層、數據集市層。
最后,還有一個數據平台的概念。數據平台可以理解為數據倉庫的載體,具體我也不太了解,做個比喻好了,數據可以理解為圖書,
數倉可以理解為一堆的書或書的合集或圖書館,而數據平台可以理解為圖書館的圖書管理系統,使得對圖書館的使用更加合理、成體系。