【面試題】大數據開發崗位

本文轉載自查看原文 2020-08-28 12:54 467 大數據開發/ 面試題

某公司面試題：
1、闡述數據庫的三大范式？

2、Linux 自帶的常用命令舉例至少20個？

3、Spark 有哪些聚合類的算子，我們應該盡量避免什么類型的算子？

4、Hive 和 HBase 的區別？

5、你了解設計模式嗎？寫出你知道的設計模式。

6、常見的GC算法有哪些？

7、kafka 的數據存在內存還是磁盤？

8、什么是shuffle？寫出你知道的Spark Shuffle 相關參數配置。

9、有一個10G的文件要存入HDFS，描述一下存儲過程。HDFS默認塊大小128MB.

10、Kafka 選舉策略。

11、Hive 內部表和外部表的區別？應該如何選擇使用哪種表呢？

12、內存泄露和內存溢出有什么區別？

13、用Java代碼寫一個你所知道的排序算法。

14、寫出wordcount並排序，linux、java（非mr）、hive、spark、Flink，以以上五種語言中任選兩種進行書寫。

15、Flink 計算單位是什么？

16、Flink 窗口類型有哪些？你都用過哪些窗口？

17、假設現在有一張Hive 表，如下所示：
元數據格式為：
字段：

col1    string
col2    string

表中有兩個字段，字段類型都為String，現在需要將數據拆分專為多列。
數據格式如下：

col1	col2
a,b,c,d	2:00,3:00,4:00,5:00
f,b,c,d	1:10,2:20,3:30,4:40

19、假設現有一張Hive表，如下所示：
col1 是有序的，按照col2 分塊計數，每當col2發生變化，就重新開始計數，計數的結果當做col3返回。
數據格式如下：

參考答案：

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 大數據面試題(一)----HADOOP 面試題大數據面試題整理大數據面試題 BAT大數據面試題幾道大數據面試題大數據運維方向面試題大數據運維方向面試題大數據量的算法面試題 2018年春招面試實戰記錄-大數據開發相關崗位大數據算法---海量數據處理面試題整理