一、ODS層
1、保持數據原貌,不做任何修改
2、數據壓縮:LZO壓縮,減少磁盤空間
3、創建的是分區表:可以防止后續的全表掃描
包括
用戶行為:string line dt
ods_start;
ods_event(商品列表、商品詳情、點擊
廣告
點贊、評論、收藏
…… )
業務數據:8張表(用戶、支付、訂單表、訂單詳情、商品表、商品一二三級分類……)
二、DWD層
1、ETL對數據的核心字段進行清洗【去重、去空】
2、ETL工具是什么
hive的hql
spark 的spark SQL
MR
Python
kettle(數據清洗框架)
3、清洗掉多少算正常?
萬分之一
4、維度退化
商品表、三級分類、二級分類、一級分類 ==》 商品表
數倉建模思想:“維度建模”-星型模型、雪花模型、星座模型,盡量選擇星型模型
目的:減少重復的join操作
新版數倉:省份+地區,退化到省份表
5、脫敏:
對身份證號、手機號、個人信息脫敏,如159****1165
ods層可以有不脫敏的數據,但這樣的表有權限
6、壓縮,優勢:減少磁盤空間
7、列式存儲,parquet:提高查詢效率
8、分區表:
用戶行為數據
ods_start:get_json_object()函數
ods_event:使用自定義UDF、自定義UDTF,以及額外的get_json_object()進行后續解析
業務數據
用戶、支付、訂單表、訂單詳情、商品表
三、DWS層
1、表的組成
用戶行為寬表(用戶id)、商品寬表、設備行為寬表(非登錄用戶的指標)
2、哪張寬表最寬
用戶行為寬表
3、有多少個字段
60-100個
4、哪60個字段/哪100個字段
說30個以上即可
如用戶行為:今天登錄的次數、點贊的次數、評論次數、收藏次數、取消點贊次數、加入購物車次數、下單次數、取消下單次數、刪除購物車次數、取消收藏次數、追加評論次數、支付次數、支付金額、下單金額、取消訂單的商品數/金額、發貨次數、退款次數、退款金額
5、流轉G復活相關指標
流轉
日活:100w
月活:大約是日活的2-3倍,300e
總注冊的用戶是多少:1000w-3000w之間,
GMV(公司機密)
日GMV:100w日活,10w人下單,一單50-100,10w訂單大約是500w-1000w的流水
利潤在10%-20%,利潤大約在100w-200w之間【進貨成本】
人員成本:程序員,1000
復購率:某日常用品復購(手紙、面膜、牙膏)10-20%
手表、顯示器、電腦1%-2%
轉化率:商品詳情 ==》 加購物車 ==》 下單 ==》 支付
5%-10% 60-70% 90%-95%
留存率:1/2/3、周留存、月留存、
搞活動 10-20%
四、ADS層:分析指標
生產環境下大概在100-200個指標,說30個以上
日活、新增、留存、轉化率、丟失、回流、連續三周活躍、七天內連續三天的活躍登錄、GMV、復購率、復購率排行
要求可以現場手寫指標【第六章】