元數據、維度、指標、度量以及建模的基礎概念


元數據
我們在操作數據倉庫時,操作的都是元數據,而元數據分為技術元數據和業務元數據。

  技術元數據:指數據倉庫開發、管理、維護相關的數據,描述了數據的原信息,轉換描述、數據映射、訪問權限等;
  業務元數據:為管理層和業務分析人員服務,從業務的角度描述數據,包括行業術語、數據的可用性、數據的意義等;

元數據的存儲常用兩種,一種是以數據集為基礎,每一個數據集有對應的元數據文件,每一個元數據文件對應數據集的元數據內容;另一種是以數據庫為基礎,由若干項組成,每一項表示元數據的一個元素。

什么是數據模型
數據模型是數據關系的一種映射,就是將業務之間的關系,用模型圖形化展示出來,在設計數據倉庫模型和架構的時候,我們需要懂具體的技術,也需要了解行業的知識和經驗來幫助我們對業務進行抽象、處理,進而生成各階段的模型。

對數據倉庫建模的好處
模型可以很好的幫我們分離出底層技術的實現和上層業務的展現,更清晰的看到數據之間內在的關聯關系,從而建立起全方位的數據視角,並消滅信息孤島和數據差異化問題,保證數據的一致性。

維度、度量、指標的含義

  維度:即數據觀察的角度,從什么角度分析問題(指標)稱為維度,比如:2019年北京地區華為手機的銷售量,銷售量就是我們要去看的一個指標,維度就是時間維度,地區維度和產品維度。
  
  度量:事實表和維度交叉匯聚的點,度量和維度構成OLAP的主要概念,這里面對於在事實表或者一個多維立方體里面存放的數值型的、連續的字段,就是度量。這符合上面的意思,有標准,一個度量字段肯定是統一單位,例如元、戶數。如果一個度量字段,其中的度量值可能是歐元又有可能是美元,那這個度量可沒法匯總。是在統一計量單位下,對不同維度的描述。
  
  指標:就是我們具體要分析的對象、分析的數據,比如銷售收入、銷售毛利、采購成本、人均產出等數值類型的就是指標。

事實表和維度表

  事實表:存儲有事實記錄的表,如系統的日志、銷售記錄、用戶訪問日志等信息,事實表的紀錄是動態增長的,所以體積大於維度表。
  例:用戶訪問日志(事實表):用戶名、url、時間…
  
  維度表:是與事實表相對應的表,這個表保存了維度的屬性值,可以跟事實表做關聯,相當於是將事實表中經常重復的數據抽取、規范出來用一張表管理,常見的有日期(日、周、月、季度等屬性)、地區表等,所以維度表的變化通常不會太大。

數據模型的建立過程
業務模型➡️領域模型➡️邏輯模型➡️物理模型

  業務模型:業務分解和程序化,確定好業務邊界和業務流程,如訂單、支付都是一個獨立的業務模塊。
  領域模型:業務的抽象、分組,整理分組之間的關聯,比如用戶購物的業務,抽成一個更大的模型,這個模型一般相對於行業。
  邏輯模型:領域模型中的業務概念實體化,並考慮實體的具體屬性及實體與實體之間的關系,比如訂單(訂單號、付款人…)和支付(金額、支付時間…)的關系。
  物理模型:解決實際應用的落地開發、上線及性能等一系列技術問題。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM