一、質疑分層不合理
雲上大數據數倉解決方案:https://www.aliyun.com/solution/datavexpo/datawarehouse
1、離線數倉--基於hive
2、實時數倉--基於kafka中間件
每一步都會緩存至datahub
二、數倉概念
1、數倉的數據源和輸出系統分別是什么
數據源:用戶行為數據、業務數據、爬蟲(灰色地帶,需要經過授權)
數據輸出:報表、用戶畫像、推薦等
2、版本選型
Apache:開源、免費、需要自己解決兼容性問題--大廠和比較有實力的公司
例如,Hadoop是3.1.3,spark是2.4.5,hive是3.1.0
CDH:不開源、不能編譯源碼,而且收費(7.0之后),常用5.12.1 5.16 6.2.0 6.3.0
市場占有率最高,知道收費,短時間內難以更換
Java程序員在用,
HDP:可以重新編譯源碼,但是已經被CDH收購,並推出了CDP7.0
CDP7.0:60000一個節點
建議公司備用一套Apache
3、框架版本號
4、服務器的選型:物理機or雲主機
物理機:刀片機服務器,1U 2U是指厚度,買1U,雙電源,32*4 內存,4*2T硬盤,一共4w,能用5年
雲主機:每年5w
運維成本:電費、運維人員工資
物理機:中型上市公司、傳統行業、資金充足的公司、運維技術實力比較強
5、集群規模
6、三年的數據是否都會保存?
生產環境中,有的公司保留半年、一年、三年等
非保留的數據,不是刪除,而是存儲完之后,永久備份
怎么備份:
某一分區數據超過年限,使用get下載到磁盤,數據就可以永久的保存到磁盤
保存時,一般會采用壓縮
公司稍微有點錢,保留數據,把數據也會備份一份
7、用戶行為數據中,哪張表的數據最多,是多少
商品列表、詳情、點擊、廣告、收藏、通知、故障、啟動、后台活躍、評論、點贊,11張表
100g的數據,點擊表的數據量多--點擊
數據量大約為 ==》 先算平均值,大約為10G ==》 大約是平均值的2-3 倍
8、業務數據中,哪張表的數據最多,是多少
訂單、用戶、支付、訂單詳情、商品表、三級分類、二級分類、一級分類,8張表
實際30張表左右
1G/30張≈34M
訂單詳情/訂單大約為100M
【平均值的2-3倍】
9、哪台服務器需要安裝哪些組件
10、總體設計方案
測試集群規划
10、人員配置參考