1. 給定a、b兩個文件,各存放50億個url,每個url各占64字節,內存限制是4G,讓你找出a、b文件共同的url? 方案1:可以估計每個文件安的大小為50G×64=320G,遠遠大於內存限制的4G。所以不可能將其完全加載到內存中處理。考慮采取分而治之的方法。 s 遍歷文件a,對每個url ...
Hash表算法處理海量數據處理面試題 主要針對遇到的海量數據處理問題進行分析,參考互聯網上的面試題及相關處理方法,歸納為三種問題 數據量大,內存小情況處理方式 分而治之 Hash映射 判斷元素是否在集合中 布隆過濾器 BitMap 各種TOPN 存儲和各種排序 經典問題分析 上千萬or億數據 有重復 ,統計其中出現次數最多的前N個數據,分兩種情況:可一次讀入內存,不可一次讀入。 可用思路:trie ...
2017-12-26 00:04 0 2659 推薦指數:
1. 給定a、b兩個文件,各存放50億個url,每個url各占64字節,內存限制是4G,讓你找出a、b文件共同的url? 方案1:可以估計每個文件安的大小為50G×64=320G,遠遠大於內存限制的4G。所以不可能將其完全加載到內存中處理。考慮采取分而治之的方法。 s 遍歷文件a,對每個url ...
第一部分、十道海量數據處理面試題 1、海量日志數據,提取出某日訪問百度次數最多的那個IP。 首先是這一天,並且是訪問百度的日志中的IP取出來,逐個寫入到一個大文件中。注意到IP是32位的,最多有個2^32個IP。同樣可以采用映射的方法,比如模1000,把整個大文件映射為1000個小文件,再找 ...
第 1 題:請設計一個攻擊服務器的策略 難度:阿里p5 ~ p7、騰訊t21 ~ t31 提供幾個常見的策略 前段時間很火的一個例子,偽造虛假npm包 + nodejs版本的pa ...
1. Java中的泛型是什么 ? 使用泛型的好處是什么? 這是在各種Java泛型面試中,一開場你就會被問到的問題中的一個,主要集中在初級和中級面試中。那些擁有Java1.4或更早版本的開發背景的人 都知道,在集合中存儲對象並在使用前進行類型轉換是多么的不方便。泛型防止了那種情況的發生。它提供 ...
1. 海量數據處理常用數據結構 數據結構: 【Bloom Filter】 它實際上是一個很長的二進制向量和一系列隨機映射函數 布隆過濾器可以用於檢索一個元素是否在一個集合中 它的優點是空間效率和查詢時間都遠遠超過一般的算法,缺點是有一定的誤識別率和刪除困難 ...
背負這樣的罪名,:-),同時,此文可以看做是對這篇文章:十道海量數據處理面試題與十個方法大總結的一般抽 ...
無私分享兩道百度作業幫的測試開發面試題!整理不易,請給贊~ 【第一題】一共有二十五匹馬,五個賽道,每個賽道每次只能跑一匹馬。問:最少多少次能選出3匹最快的馬?(不能記錄每匹馬跑完全程所用的時間,只能通過比較誰先到達終點來判斷兩匹馬的孰快孰慢) 思路如下: 1、前五次:25匹馬,分成5組,每組 ...
29.棧的push、pop序列 題目:輸入兩個整數序列。其中一個序列表示棧的push順序, 判斷另一個序列有沒有可能是對應的pop順序。 為了簡單起見,我們假設push ...