【大數據面試】【項目】數倉架構:離線、實時、數倉輸入輸出、選型、版本、服務器、集群規模、數據保存、組件安裝分配


一、質疑分層不合理

雲上大數據數倉解決方案:https://www.aliyun.com/solution/datavexpo/datawarehouse

1、離線數倉--基於hive

 2、實時數倉--基於kafka中間件

 

 每一步都會緩存至datahub

二、數倉概念

1、數倉的數據源和輸出系統分別是什么

數據源:用戶行為數據、業務數據、爬蟲(灰色地帶,需要經過授權)

數據輸出:報表、用戶畫像、推薦等

2、版本選型

Apache:開源、免費、需要自己解決兼容性問題--大廠和比較有實力的公司

例如,Hadoop是3.1.3,spark是2.4.5,hive是3.1.0

CDH:不開源、不能編譯源碼,而且收費(7.0之后),常用5.12.1  5.16   6.2.0  6.3.0

市場占有率最高,知道收費,短時間內難以更換

Java程序員在用,

HDP:可以重新編譯源碼,但是已經被CDH收購,並推出了CDP7.0

CDP7.0:60000一個節點

建議公司備用一套Apache

3、框架版本號

 4、服務器的選型:物理機or雲主機

物理機:刀片機服務器,1U 2U是指厚度,買1U,雙電源,32*4 內存,4*2T硬盤,一共4w,能用5年

雲主機:每年5w

運維成本:電費、運維人員工資

 物理機:中型上市公司、傳統行業、資金充足的公司、運維技術實力比較強

5、集群規模

 6、三年的數據是否都會保存?

生產環境中,有的公司保留半年、一年、三年等

非保留的數據,不是刪除,而是存儲完之后,永久備份

怎么備份:

某一分區數據超過年限,使用get下載到磁盤,數據就可以永久的保存到磁盤

保存時,一般會采用壓縮

公司稍微有點錢,保留數據,把數據也會備份一份

7、用戶行為數據中,哪張表的數據最多,是多少

商品列表、詳情、點擊、廣告、收藏、通知、故障、啟動、后台活躍、評論、點贊,11張表

100g的數據,點擊表的數據量多--點擊

數據量大約為    ==》   先算平均值,大約為10G   ==》 大約是平均值的2-3 倍

8、業務數據中,哪張表的數據最多,是多少

訂單、用戶、支付、訂單詳情、商品表、三級分類、二級分類、一級分類,8張表

實際30張表左右

1G/30張≈34M

訂單詳情/訂單大約為100M

【平均值的2-3倍】

 9、哪台服務器需要安裝哪些組件

 10、總體設計方案

 

 

 

 

 測試集群規划

10、人員配置參考

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM