前言 “當你不創造東西時,你只會根據自己的感覺而不是能力去看待問題。” – WhyTheLuckyStiff 匯總一些自己在大數據路上走過的彎路,願 ...
海量日志數據,提取出某日訪問百度次數最多的那個IP 解法 : 海量日志,文件太大,IP地址最多有 G,無法裝入內存,,將這個大文件 hash映射:可以取模 分成多個小文件 如 。 對每個小文件進行hash統計,hash map ip,value , 得到每個文件出現頻率最多的ip 將這些頻率最高的ip進行統計,然后排序得出最大值,這里可以采用堆 快速 歸並,但只取一個最大值的話可以采用堆排序。 ...
2016-09-25 20:34 0 2651 推薦指數:
前言 “當你不創造東西時,你只會根據自己的感覺而不是能力去看待問題。” – WhyTheLuckyStiff 匯總一些自己在大數據路上走過的彎路,願 ...
Java內存管理面試指南一 Java基礎面試指南一 Java基礎面試指南二 Java基礎面試指南三 Java基礎面試指南四 Java線程面試指南一 Java線程面試指南二 Redis面試指南一 Kafka面試指南一 Spring面試指南 ...
1. 下列哪項通常是集群的最主要瓶頸(C) A. CPU B. 網絡 C. 磁盤IO D. 內存 2. 下列哪項可以作為集群的管理工具?(C) A.Puppet B.Pdsh C.Cl ...
面試題總結: 分布式文件系統(Distributed File System)是指文件系統管理的物理存儲資源不一定直接連接在本地節點上,而是通過計算機網絡與節點相連。分布式文件系統的設計基於客戶機/服務器模式。 [優點] 支持超大文件 超大文件在這里指的是幾百M,幾百GB,甚至幾TB大小 ...
判斷題: 1.如果 NameNode 意外終止,SecondaryNameNode 會接替它使集群繼續工作。(錯誤) 分析: SecondaryNameNode是幫助恢復,而不是替代 S ...
1. hadoop 使用什么版本,CDH版本號,是5.3.6 。hadoop的版本是2.72,記住cdh的版本號和hadoop版本號不一樣。2. flume是單節點采集數據還是多節點采集數據?flume是自定義框架還是用官方提供的框架?官方框架開發中有什么問題 ...
一、.hdfs寫文件的步驟 答案: (1)client向NameNode申請上傳…/xxx.txt文件 (2)NN向client響應可以上傳文件 (3)Client向NameNode申請Dat ...
面試中的問題(重點)** 1. RDD的特性(RDD的解釋)1.RDD可以看做是一些列partition所組成的2.RDD之間的依賴關系3.算子是作用在partition之上的4.分區器是作用在kv形式的RDD上5.partition提供的最佳計算位置,利於數據處理的本地化即計算向數據移動 ...