一、自我介紹
看簡歷+表達能力
2-3分鍾左右(學歷、參加工作、愛好、特長)
二、項目
背
三、數據倉庫
1、以數倉為中心
不要直接上來說ods、dwd、dws、ads
2、范式建模與維度建模的方式區別
3、主題划分是否合適
4、事實表與維度表的介紹
有多少張,哪些緩解進行度量
5、總結矩陣
6、變化的數據如何處理,拉鏈表還是?
7、不常變化的數據,如何處理
四、數據治理
1、源數據包括哪些種類
hive、spark、kafka源數據
分幾類
2、指標體系的建設與維護
公司某個業務的指標
3、OLAP-ClickHouse(惡樓跑)
存在哪些問題
提升了多少速度
4、spark-數倉中的一部分
底層了解
寬窄依賴
shuffle
job
rdd
spark開發,數據處理(非結構化數據清洗轉換為關系型數據)
5、開發
hive的數據傾斜
hive調優過程
小文件、OOM處理(舉例子,解決的流程☆,之前的視頻有講到)
mr
多表join定位處理
開窗函數的場景和使用,考察SQL的完整程度