數據層的存儲一般如下:
Data Source
數據源一般是業務庫和埋點,當然也會有第三方購買數據等多種數據來源方式。業務庫的存儲一般是Mysql 和 PostgreSql。
ODS 層
ODS 的數據量一般非常大,所以大多數公司會選擇存在HDFS上,即Hive或者Hbase,Hive居多。
- ODS 全稱是 Operational Data Store,操作數據存儲.“面向主題的”,數據運營層,也叫ODS層,是最接近數據源中數據的一層,數據源中的數據,經過抽取、洗凈、傳輸,也就說傳說中的 ETL 之后,裝入本層。本層的數據,總體上大多是按照源頭業務系統的分類方式而分類的。但是,這一層面的數據卻不等同於原始數據。在源數據裝入這一層時,要進行諸如去噪(例如有一條數據中人的年齡是 300 歲,這種屬於異常數據,就需要提前做一些處理)、去重(例如在個人資料表中,同一 ID 卻有兩條重復數據,在接入的時候需要做一步去重)、字段命名規范等一系列操作。
可將ODS做成一個寬表,結合DW事實表與維度表或更多信息。
DW 層
一般和 ODS 的存儲一致,但是為了滿足更多的需求,也會有存放在 PG 和 ES 中的情況。
一般DW曾進行維度、事實表設計;根據不同主題設計維度表與事實表。
- 數據倉庫層(DW),是數據倉庫的主體.在這里,從 ODS 層中獲得的數據按照主題建立各種數據模型。這一層和維度建模會有比較深的聯系。
APP 層
應用層的數據,一般都要求比較快的響應速度,因此一般是放在 Mysql、PG、Redis中。
一般DH曾,數據集市,針對不同用戶,實現數據隔離。存儲聚合數據。
參考資料:
https://www.cnblogs.com/wang3680/p/11538451.html