大數據研發

本文轉載自查看原文 2017-10-25 19:35 2259 大數據|Hadoop知識

大數據工程師（開發）面試題(附答案)

MapReduce

1. 不指定語言，寫一個WordCount的MapReduce

我：最近剛學了scala，並且就有scala版本的WordCount，剛好學以致用了一下：

補：至於java版本，蝦皮博主的一篇文章講解的非常細致：
Hadoop集群（第6期）_WordCount運行詳解

http://www.cnblogs.com/xia520pi/archive/2012/05/16/2504205.html

2. 上述寫的程序中.map((_,1))的輸出結果是什么

我：通過flatMap將其扁平化，而.map((_,1)) 則是每個出現單詞，1這樣的形式展現，此時還沒歸並。

3. 你能用SQL語句實現上述的MapReduce嗎？要求按照基於某個字段的值的頻次倒序,並且以維度——頻次的形式結果展現?

我：基於某個字段——決定了要用group By，頻次要用count聚合，倒序自然少不了desc。
補：框架搭好就是往里塞了：

4.給你一份亂序的100萬個數字的文件，你如何來排序？

我：先拆分成若干小的，然后再排(思路是從希爾排序出發的)
補：內部排序算法：希爾排序

http://www.xiapistudio.com/archives/291.html

Spark

1. 說一說Spark程序編寫的一般步驟？

我：初始化，資源，數據源，並行化，rdd轉化，action算子打印輸出結果或者也可以存至相應的數據存儲介質
補：具體的可看下圖：

2. Spark有哪兩種算子？

我：Transformation（轉化）算子和Action（執行）算子。

3. Spark提交你的jar包時所用的命令是什么？

我：submit。
面試官：spark-submit？
我：嗯，spark-submit。

4. Spark有哪些聚合類的算子,我們應該盡量避免什么類型的算子？

我：aggeragate
面試官：還有呢？
我：記不清了。。。
面試官：還有你剛剛寫的那個groupByKey哈
補：

在我們的開發過程中，能避免則盡可能避免使用reduceByKey、join、distinct、repartition等會進行shuffle的算子，盡量使用map類的非shuffle算子。這樣的話，沒有shuffle操作或者僅有較少shuffle操作的Spark作業，可以大大減少性能開銷。

5. 你所理解的Spark的shuffle過程？

我：spark shuffle處於一個寬依賴，可以實現類似混洗的功能，將相同的Key分發至同一個Reducer上進行處理。
補：詳細探究Spark的shuffle實現

http://blog.csdn.net/johnny_lee/article/details/22619585

6. 你如何從Kafka中獲取數據？

我：topic
補：分布式消息系統：Kafka

7. 對於Spark中的數據傾斜問題你有什么好的方案？

我：可以先分析基數大造成數據傾斜的維度，將其適當的拆分。
補：Spark性能優化指南：高級篇

編程

1.如果我有兩個list，如何用Python語言取出這兩個list中相同的元素？

我：list(set(list1).intersection(set(list2))),通過set 的intersection取交集的函數實現相同元素的提取。

* 2.請你給出在Python中較快獲取一個元素的數據結構，並且說出其時間復雜度以及它的缺陷是什么？*

我：因為之前也在做一些leetcode上的題目，多多少少重溫了下數據結構，當時腦海里呈現的是數組方便查找，隊列和棧方便插入刪除，所以一聽到較快獲取果斷數組了。
面試官：dict（字典）
我：厲害！！
面試官：那它的時間復雜度你曉得嘛？
我：不是特別了解，O（1），常數時間復雜度？
面試官：嗯，那你知道它的缺陷嗎？
我：（中午吃撐了，TradeOff哈）不曉得
面試官：空間復雜度較高哈
補：
反思了一下，之所以說錯，可能和以前學習算法時，起承轉合的過度，並未將棧、隊列和map，或者dict直接比較，而是從數組切換到隊列和棧，所以就和之前的那個PUT和POST差不多，訓練邏輯正確，確實數組查詢記錄方便，但訓練廣度有些多樣性不夠。

算法備忘錄——基礎數據結構與復雜度
常用數據結構和算法操作效率的對比總結

3. 做幾道OJ的題目（英文的），說一說這個問題的要求和注意點，以及可以獲得正確結果的你的思路？

恢復IP地址

Given a string containing only digits, restore it by returning all possible valid IP address combinations.
Example
Given “25525511135”, return
[
“255.255.11.135”,
“255.255.111.35”
]
Order does not matter.

我：思考了一會兒，沒想出來，只能想出個不通用的思路。
面試官：給你個提示，嘗試用樹這個數據結構。
補：此處埋一個坑，學完樹的數據結構再回來解決。

快樂數

Write an algorithm to determine if a number is happy.
A happy number is a number defined by the following process: Starting with any positive integer, replace the number by the sum of the squares of its digits, and repeat the process until the number equals 1 (where it will stay), or it loops endlessly in a cycle which does not include 1. Those numbers for which this process ends in 1 are happy numbers.
Example
19 is a happy number
1^2 + 9^2 = 82
8^2 + 2^2 = 68
6^2 + 8^2 = 100
1^2 + 0^2 + 0^2 = 1

我：思路是模擬過程法，即按照它驗證一個數是否是快樂數的方式進行模擬，當然也有些取巧的方式，如果某個中間結果曾出現過，妥妥滴死循環嘛，即刻跳出。
面試官：思路是對的
我：我覺得這會TLE，肯定有取巧的方法（這道題目之前好像接觸過）
補：回去搜了一下，發現之前一直求助的一個大神的博客通過模擬過程用Python實現的：
Happy Number (之前的懷疑有更巧方法在於時常保持偷懶的思維也是必要的)

4. 你常用的IDE有哪些？

我：Java：Eclipse；Python：PyCharm；Scala：IntelliJ IDEA；Shell：VIM

5. 你了解設計模式嗎？

我：不了解，但以后回去買本O’Really的《設計模式》
補：封面如下：

6. 什么是Restful API？

我：由於對Restful的了解只停留在使用層面，給我的感覺像是一種資源的提交獲取，GET獲取，POST/DELETE/PUT都可以看作是一種提交操作
補：

【專業定義】：一種軟件架構風格，設計風格而不是標准，只是提供了一組設計原則和約束條件。它主要用於客戶端和服務器交互類的軟件。基於這個風格設計的軟件可以更簡潔，更有層次，更易於實現緩存等機制。

RESTful百度百科

Devops

1. 數據庫讀寫分離的目的是什么？

我：①減輕負載；②權限控制
補：讀寫分離的作用
看了上面的文章，減輕負載是首要目的，至於權限控制，更像是一種實現方式，不像目的。

2. ZooKeeper是什么？非大數據領域，我們可以用ZooKeeper來做些什么？

我：ZooKeeper是分布式協調組件，非大數據領域，可以用ZooKeeper來做HA或者存儲數據，比如配置信息啥的。(Znode)
補：ZooKeeper 典型應用場景一覽

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 超詳細！搭建本地大數據研發環境（16G內存+CDH）大數據研發相關-面試拾遺（備戰積累的知識點）大數據之presto 大數據什么是 ETL 我對大數據的認識大數據技術大數據大數據大數據之Scala 大數據