【大數據面試】【數倉項目】分層:ODS層、DWD層、DWS層、ADS層構成、操作


一、ODS層

1、保持數據原貌,不做任何修改

2、數據壓縮:LZO壓縮,減少磁盤空間

3、創建的是分區表:可以防止后續的全表掃描

包括

用戶行為:string line dt

       ods_start;

                 ods_event(商品列表、商品詳情、點擊

                廣告

                                   點贊、評論、收藏

             ……    )

業務數據:8張表(用戶、支付、訂單表、訂單詳情、商品表、商品一二三級分類……)

二、DWD層

1、ETL對數據的核心字段進行清洗【去重、去空】

2、ETL工具是什么

hive的hql

spark 的spark SQL

MR

Python

kettle(數據清洗框架)

3、清洗掉多少算正常?

萬分之一

4、維度退化

商品表、三級分類、二級分類、一級分類   ==》 商品表

數倉建模思想:“維度建模”-星型模型、雪花模型、星座模型,盡量選擇星型模型

目的:減少重復的join操作

新版數倉:省份+地區,退化到省份表

5、脫敏:

對身份證號、手機號、個人信息脫敏,如159****1165

 ods層可以有不脫敏的數據,但這樣的表有權限

6、壓縮,優勢:減少磁盤空間

7、列式存儲,parquet:提高查詢效率

8、分區表:

用戶行為數據

  ods_start:get_json_object()函數

  ods_event:使用自定義UDF、自定義UDTF,以及額外的get_json_object()進行后續解析

業務數據

  用戶、支付、訂單表、訂單詳情、商品表

三、DWS層

1、表的組成

用戶行為寬表(用戶id)、商品寬表、設備行為寬表(非登錄用戶的指標)

2、哪張寬表最寬

用戶行為寬表

3、有多少個字段

60-100個

4、哪60個字段/哪100個字段

說30個以上即可

如用戶行為:今天登錄的次數、點贊的次數、評論次數、收藏次數、取消點贊次數、加入購物車次數、下單次數、取消下單次數、刪除購物車次數、取消收藏次數、追加評論次數、支付次數、支付金額、下單金額、取消訂單的商品數/金額、發貨次數、退款次數、退款金額

5、流轉G復活相關指標

流轉

日活:100w

月活:大約是日活的2-3倍,300e

總注冊的用戶是多少:1000w-3000w之間,

GMV(公司機密)

日GMV:100w日活,10w人下單,一單50-100,10w訂單大約是500w-1000w的流水

利潤在10%-20%,利潤大約在100w-200w之間【進貨成本】

人員成本:程序員,1000

復購率:某日常用品復購(手紙、面膜、牙膏)10-20%

手表、顯示器、電腦1%-2%

轉化率:商品詳情 ==》 加購物車  ==》 下單   ==》  支付

          5%-10%    60-70%        90%-95%

留存率:1/2/3、周留存、月留存、

搞活動 10-20%

四、ADS層:分析指標

生產環境下大概在100-200個指標,說30個以上

日活、新增、留存、轉化率、丟失、回流、連續三周活躍、七天內連續三天的活躍登錄、GMV、復購率、復購率排行

要求可以現場手寫指標【第六章】


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM