【大數據面試】【數倉項目】分層：ODS層、DWD層、DWS層、ADS層構成、操作

本文轉載自查看原文 2021-12-16 17:17 1321 大數據求職面試

一、ODS層

1、保持數據原貌，不做任何修改

2、數據壓縮：LZO壓縮，減少磁盤空間

3、創建的是分區表：可以防止后續的全表掃描

包括

用戶行為：string line dt

　　　　 ods_start；

ods_event（商品列表、商品詳情、點擊

點贊、評論、收藏

　　　　　　　　 ……　　　）

業務數據：8張表（用戶、支付、訂單表、訂單詳情、商品表、商品一二三級分類……）

二、DWD層

1、ETL對數據的核心字段進行清洗【去重、去空】

2、ETL工具是什么

hive的hql

spark 的spark SQL

Python

kettle（數據清洗框架）

3、清洗掉多少算正常？

萬分之一

4、維度退化

商品表、三級分類、二級分類、一級分類 ==》商品表

數倉建模思想：“維度建模”-星型模型、雪花模型、星座模型，盡量選擇星型模型

目的：減少重復的join操作

新版數倉：省份+地區，退化到省份表

5、脫敏：

對身份證號、手機號、個人信息脫敏，如159****1165

ods層可以有不脫敏的數據，但這樣的表有權限

6、壓縮，優勢：減少磁盤空間

7、列式存儲，parquet：提高查詢效率

8、分區表：

用戶行為數據

　　ods_start：get_json_object()函數

　　ods_event：使用自定義UDF、自定義UDTF，以及額外的get_json_object()進行后續解析

業務數據

　　用戶、支付、訂單表、訂單詳情、商品表

三、DWS層

1、表的組成

用戶行為寬表（用戶id）、商品寬表、設備行為寬表（非登錄用戶的指標）

2、哪張寬表最寬

用戶行為寬表

3、有多少個字段

60-100個

4、哪60個字段/哪100個字段

說30個以上即可

如用戶行為：今天登錄的次數、點贊的次數、評論次數、收藏次數、取消點贊次數、加入購物車次數、下單次數、取消下單次數、刪除購物車次數、取消收藏次數、追加評論次數、支付次數、支付金額、下單金額、取消訂單的商品數/金額、發貨次數、退款次數、退款金額

5、流轉G復活相關指標

流轉

日活：100w

月活：大約是日活的2-3倍，300e

總注冊的用戶是多少：1000w-3000w之間，

GMV（公司機密）

日GMV：100w日活，10w人下單，一單50-100，10w訂單大約是500w-1000w的流水

利潤在10%-20%，利潤大約在100w-200w之間【進貨成本】

人員成本：程序員，1000

復購率：某日常用品復購（手紙、面膜、牙膏）10-20%

手表、顯示器、電腦1%-2%

轉化率：商品詳情 ==》加購物車 ==》下單 ==》支付

　　　　　　 5%-10%　　　　60-70% 90%-95%

留存率：1/2/3、周留存、月留存、

搞活動 10-20%

四、ADS層：分析指標

生產環境下大概在100-200個指標，說30個以上

日活、新增、留存、轉化率、丟失、回流、連續三周活躍、七天內連續三天的活躍登錄、GMV、復購率、復購率排行

要求可以現場手寫指標【第六章】

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 數倉1.2 |分層| ODS& DWD& DWS& ADS| 行為數倉 [數據倉庫]分層概念,ODS,DM,DWD,DWS,DIM的概念 [數據倉庫]分層概念,ODS,DM,DWD,DWS,DIM的概念【數倉面試】數倉分層架構、作用、數據采集層、數據存儲與分析、數倉分層的好處數據倉庫業務數倉 DWD層傳統數倉如何轉型大數據大數據項目實戰之在線教育（01數倉需求）傳統 BI 如何轉大數據數倉三：大數據架構回顧-數倉架構演進大數據處理黑科技：揭秘PB級數倉GaussDB(DWS) 並行計算技術