【大數據面試】【項目】數倉架構：離線、實時、數倉輸入輸出、選型、版本、服務器、集群規模、數據保存、組件安裝分配

本文轉載自查看原文 2021-12-15 22:20 126 大數據求職面試

一、質疑分層不合理

雲上大數據數倉解決方案：https://www.aliyun.com/solution/datavexpo/datawarehouse

1、離線數倉--基於hive

2、實時數倉--基於kafka中間件

每一步都會緩存至datahub

二、數倉概念

1、數倉的數據源和輸出系統分別是什么

數據源：用戶行為數據、業務數據、爬蟲（灰色地帶，需要經過授權）

數據輸出：報表、用戶畫像、推薦等

2、版本選型

Apache：開源、免費、需要自己解決兼容性問題--大廠和比較有實力的公司

例如，Hadoop是3.1.3，spark是2.4.5，hive是3.1.0

CDH：不開源、不能編譯源碼，而且收費（7.0之后），常用5.12.1 5.16 6.2.0 6.3.0

市場占有率最高，知道收費，短時間內難以更換

Java程序員在用，

HDP：可以重新編譯源碼，但是已經被CDH收購，並推出了CDP7.0

CDP7.0：60000一個節點

建議公司備用一套Apache

3、框架版本號

4、服務器的選型：物理機or雲主機

物理機：刀片機服務器，1U 2U是指厚度，買1U，雙電源，32*4 內存，4*2T硬盤，一共4w，能用5年

雲主機：每年5w

運維成本：電費、運維人員工資

物理機：中型上市公司、傳統行業、資金充足的公司、運維技術實力比較強

5、集群規模

6、三年的數據是否都會保存？

生產環境中，有的公司保留半年、一年、三年等

非保留的數據，不是刪除，而是存儲完之后，永久備份

怎么備份：

某一分區數據超過年限，使用get下載到磁盤，數據就可以永久的保存到磁盤

保存時，一般會采用壓縮

公司稍微有點錢，保留數據，把數據也會備份一份

7、用戶行為數據中，哪張表的數據最多，是多少

商品列表、詳情、點擊、廣告、收藏、通知、故障、啟動、后台活躍、評論、點贊，11張表

100g的數據，點擊表的數據量多--點擊

數據量大約為 ==》先算平均值，大約為10G ==》大約是平均值的2-3 倍

8、業務數據中，哪張表的數據最多，是多少

訂單、用戶、支付、訂單詳情、商品表、三級分類、二級分類、一級分類，8張表

實際30張表左右

1G/30張≈34M

訂單詳情/訂單大約為100M

【平均值的2-3倍】

9、哪台服務器需要安裝哪些組件

10、總體設計方案

測試集群規划

10、人員配置參考

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 【大數據面試】【數倉項目】其他知識點：行為數倉、業務數倉、拉鏈表、即席查詢【大數據】什么是數倉三：大數據架構回顧-數倉架構演進離線實時一體化數倉與湖倉一體—雲原生大數據平台的持續演進傳統數倉如何轉型大數據離線數倉和實時數倉架構與設計大數據數倉面試流程和重點面試題離線數倉與實時數倉案例【大數據面試】【數倉項目】分層：ODS層、DWD層、DWS層、ADS層構成、操作【數倉面試】數倉分層架構、作用、數據采集層、數據存儲與分析、數倉分層的好處