海量數據處理問題匯總及方法總結


面試題中總是有好多海量數據的處理問題,在這里列出一些常見問題,便於以后查閱:

 類型1:hash映射+hash統計+堆排序

1、 給你A,B兩個文件,各存放50億條URL,每條URL占用64字節,內存限制是4G,讓你找出A,B文件共同的URL。 

      可以估計每個文件安的大小為5G×64=320G,遠遠大於內存限制的4G。所以不可能將其完全加載到內存中處理。考慮采取分而治之的方法。

  1. 分而治之/hash映射:遍歷文件a,對每個url求取,然后根據所取得的值將url分別存儲到1000個小文件(記為)中。這樣每個小文件的大約為300M。遍歷文件b,采取和a相同的方式將url分別存儲到1000小文件中(記為)。這樣處理后,所有可能相同的url都在對應的小文件()中,不對應的小文件不可能有相同的url。然后我們只要求出1000對小文件中相同的url即可。
  2. hash統計:求每對小文件中相同的url時,可以把其中一個小文件的url存儲到hash_set中。然后遍歷另一個小文件的每個url,看其是否在剛才構建的hash_set中,如果是,那么就是共同的url,存到文件里面就可以了。

 

2、有10個文件,每個文件1G, 每個文件的每一行都存放的是用戶的query,每個文件的query都可能重復。要你按照query的頻度排序 
 方案1:

  1. hash映射:順序讀取10個文件,按照hash(query)%10的結果將query寫入到另外10個文件(記為)中。這樣新生成的文件每個的大小大約也1G(假設hash函數是隨機的)。
  2. hash統計:找一台內存在2G左右的機器,依次對用hash_map(query, query_count)來統計每個query出現的次數。注:hash_map(query,query_count)是用來統計每個query的出現次數,不是存儲他們的值,出現一次,則count+1。
  3. 堆/快速/歸並排序:利用快速/堆/歸並排序按照出現次數進行排序。將排序好的query和對應的query_cout輸出到文件中。這樣得到了10個排好序的文件(記為)。對這10個文件進行歸並排序(內排序與外排序相結合)。

     除此之外,此題還有以下兩個方法:
     方案2:一般query的總量是有限的,只是重復的次數比較多而已,可能對於所有的query,一次性就可以加入到內存了。這樣,我們就可以采用trie樹/hash_map等直接來統計每個query出現的次數,然后按出現次數做快速/堆/歸並排序就可以了。

     方案3:與方案1類似,但在做完hash,分成多個文件后,可以交給多個文件來處理,采用分布式的架構來處理(比如MapReduce),最后再進行合並。


3、 有一個1G大小的一個文件,里面每一行是一個詞,詞的大小不超過16個字節,內存限制大小是1M。返回頻數最高的100個詞

  1. 分而治之/hash映射:順序讀文件中,對於每個詞x,取hash(x)%5000,然后按照該值存到5000個小文件(記為x0,x1,...x4999)中。這樣每個文件大概是200k左右。如果其中的有的文件超過了1M大小,還可以按照類似的方法繼續往下分,直到分解得到的小文件的大小都不超過1M。
  2. hash統計:對每個小文件,采用trie樹/hash_map等統計每個文件中出現的詞以及相應的頻率。
  3. 堆/歸並排序:取出出現頻率最大的100個詞(可以用含100個結點的最小堆),並把100個詞及相應的頻率存入文件,這樣又得到了5000個文件。最后就是把這5000個文件進行歸並(類似於歸並排序)的過程了。

4、海量日志數據,提取出某日訪問百度次數最多的那個IP。

     

  1. 分而治之/hash映射:針對數據太大,內存受限,只能是:把大文件化成(取模映射)小文件,即16字方針:大而化小,各個擊破,縮小規模,逐個解決
  2. hash統計:當大文件轉化了小文件,那么我們便可以采用常規的Hashmap(ip,value)來進行頻率統計。
  3. 堆/快速排序:統計完了之后,便進行排序(可采取堆排序),得到次數最多的IP。

     具體而論,則是: “首先是這一天,並且是訪問百度的日志中的IP取出來,逐個寫入到一個大文件中。注意到IP是32位的,最多有個2^32個IP。同樣可以采用映射的方法,比如模1000,把整個大文件映射為1000個小文件,再找出每個小文中出現頻率最大的IP(可以采用Hash_map進行頻率統計,然后再找出頻率最大的幾個)及相應的頻率。然后再在這1000個最大的IP中,找出那個頻率最大的IP,即為所求。

     注:Hash取模是一種等價映射,不會存在同一個元素分散到不同小文件中去的情況,即這里采用的是mod1000算法,那么相同的IP在hash后,只可能落在同一個文件中,不可能被分散的。

 

 

5、海量數據分布在100台電腦中,想個辦法高效統計出這批數據的TOP10。

    1.先把所有的數據遍歷一遍做一次hash(保證相同的數據條目划分到同一台電腦上進行運算),然后根據hash結果重新分布到100台電腦中,

    2.堆排序:在每台電腦上求出TOP10,可以采用包含10個元素的堆完成(TOP10小,用最大堆,TOP10大,用最小堆)。比如求TOP10大,我們首   

       先取前10個元素調整成最小堆,如果發現,然后掃描后面的數據,並與堆頂元素比較,如果比堆頂元素大,那么用該元素替換堆頂,然后再調整為  

       最小堆。最后堆中的元素就是TOP10大。

    3.求出每台電腦上的TOP10后,然后把這100台電腦上的TOP10組合起來,共1000個數據,再利用上面類似的方法求出TOP10就可以了。

 

6、怎么在海量數據中找出重復次數最多的一個

      方案1:先做hash,然后求模映射為小文件,求出每個小文件中重復次數最多的一個,並記錄重復次數。然后找出上一步求出的數據中重復次數最多的一個就是所求(具體參考前面的題)。

 

7、上千萬or億數據(有重復),統計其中出現次數最多的前N個數據。

      上千萬或上億的數據,現在的機器的內存應該能存下。所以考慮采用hash_map/搜索二叉樹/紅黑樹等來進行統計次數。然后就是取出前N個出現次數最多的數據了,可以用堆機制完成。

 

8、1000萬字符串,其中有些是相同的(重復),需要把重復的全部去掉,保留沒有重復的字符串。請問怎么設計和實現?

       用trie樹比較合適,hash_map也應該能行

9、一個文本文件,大約有一萬行,每行一個詞,要求統計出其中最頻繁出現的前十個詞。請給出思想,給時間復雜度分析。

      這題是考慮時間效率。用trie樹統計每個詞出現的次數,時間復雜度是O(n*le)(le表示單詞的平准長度)。然后是找出出現最頻繁的前10個詞,可以用堆來實現,前面的題中已經講到了,時間復雜度是O(n*lg10)。所以總的時間復雜度,是O(n*le)與O(n*lg10)中較大的哪一個。

 

10、一個文本文件,也是找出前十個最經常出現的詞,但這次文件比較長,說是上億行或者十億行,總之無法一次讀入內存,問最優解。

     1)hash映射:hash(單詞) % 1000, 這樣這些單詞就分布在1000個小文件中

     2)hash統計:用hashmap或者trie樹進行統計,找出每個小文件中的最常出現的10個詞

     3)堆排序:用第一個文件的10個最常出現詞構建小根堆,然后依次讀入剩下999個文件的最常出現單詞,調整對,最后將得到總體的最常出現詞

 

11、100w個數中找最大的前100個數

    1000,000個數是1000000*4 = 4M,內存完全能放下,直接堆排序即可

     

12、尋找熱門查詢: 
搜索引擎會通過日志文件把用戶每次檢索使用的所有檢索串都記錄下來,每個查詢串的長度為1-255字節。假設目前有一千萬個記錄, 
這些查詢串的重復度比較高,雖然總數是1千萬,但如果除去重復后,不超過3百萬個。一個查詢串的重復度越高,說明查詢它的用戶越多, 
也就是越熱門。請你統計最熱門的10個查詢串,要求使用的內存不能超過1G。 
(1)請描述你解決這個問題的思路; 
(2)請給出主要的處理流程,算法,以及算法的復雜度。

      我們知道,數據大則划為小的,但如果數據規模比較小,能一次性裝入內存呢?比如這第2題,雖然有一千萬個Query,但是由於重復度比較高,因此事實上只有300萬的Query,每個Query255Byte,因此我們可以考慮把他們都放進內存中去,而現在只是需要一個合適的數據結構,在這里,Hash Table絕對是我們優先的選擇。所以我們摒棄分而治之/hash映射的方法,直接上hash統計,然后排序。So,

  1. hash統計:先對這批海量數據預處理(維護一個Key為Query字串,Value為該Query出現次數的HashTable,即Hashmap(Query,Value),每次讀取一個Query,如果該字串不在Table中,那么加入該字串,並且將Value值設為1;如果該字串在Table中,那么將該字串的計數加一即可。最終我們在O(N)的時間復雜度內用Hash表完成了統計;
  2. 堆排序:第二步、借助堆這個數據結構,找出Top K,時間復雜度為N‘logK。即借助堆結構,我們可以在log量級的時間內查找和調整/移動。因此,維護一個K(該題目中是10)大小的小根堆,然后遍歷300萬的Query,分別和根元素進行對比所以,我們最終的時間復雜度是:O(N) + N'*O(logK),(N為1000萬,N’為300萬)。

13、一共有N個機器,每個機器上有N個數。每個機器最多存O(N)個數並對它們操作。
如何找到N^2個數的中數(median)?

      方案1:先大體估計一下這些數的范圍,比如這里假設這些數都是32位無符號整數(共有2^32個)。我們把0到2^32-1的整數划分為N個范圍段,每個段包含(2^32)/N個整數。比如,第一個段位0到2^32/N-1,第二段為(2^32)/N到(2^32)/N-1,…,第N個段為(2^32)(N-1)/N到2^32-1。然后,掃描每個機器上的N個數,把屬於第一個區段的數放到第一個機器上,屬於第二個區段的數放到第二個機器上,…,屬於第N個區段的數放到第N個機器上。注意這個過程每個機器上存儲的數應該是O(N)的。下面我們依次統計每個機器上數的個數,一次累加,直到找到第k個機器,在該機器上累加的數大於或等於(N^2)/2,而在第k-1個機器上的累加數小於(N^2)/2,並把這個數記為x。那么我們要找的中位數在第k個機器中,排在第(N^2)/2-x位。然后我們對第k個機器的數排序,並找出第(N^2)/2-x個數,即為所求的中位數的復雜度是O(N^2)的。

      方案2:先對每台機器上的數進行排序。排好序后,我們采用歸並排序的思想,將這N個機器上的數歸並起來得到最終的排序。找到第(N^2)/2個便是所求。復雜度是O(N^2*lgN^2)。

 

類型2:bitmap 雙層桶划分

      適用范圍:第k大,中位數,不重復或重復的數字
  基本原理及要點:因為元素范圍很大,不能利用直接尋址表,所以通過多次划分,逐步確定范圍,然后最后在一個可以接受的范圍內進行。可以通過多次縮小,雙層只是一個例子。

14、 2.5億個整數中找出不重復的整數,內存空間不足以容納這2.5億個整數。

     

      方案1:采用2-Bitmap(每個數分配2bit,00表示不存在,01表示出現一次,10表示多次,11無意義)進行,共需內存2^32*2bit=1GB內存,還可以接受。然后掃描這2.5億個整數,查看Bitmap中相對應位,如果是00變01,01變10,10保持不變。所描完事后,查看bitmap,把對應位是01的整數輸出即可。如果數字過多內存放不下,則可以分塊再bitmap

      方案2:也可采用前面題類似的方法,進行划分小文件的方法。然后在小文件中找出不重復的整數,並排序。然后再進行歸並,注意去除重復的元素

 

15 已知某個文件內包含一些電話號碼,每個號碼為8位數字,統計不同號碼的個數。

      8位最多99 999 999,大概需要99m個bit,大概10幾m字節的內存即可。 (可以理解為從0-99 999 999的數字,每個數字對應一個Bit位,所以只需要99M個Bit==12MBytes,這樣,就用了小小的12M左右的內存表示了所有的8位數的電話)

 

16、5億個int找它們的中位數。
  這個例子比上面那個更明顯。首先我們將int划分為2^16個區域,然后讀取數據統計落到各個區域里的數的個數,之后我們根據統計結果就可以判斷中位數落到那個區域,同時知道這個區域中的第幾大數剛好是中位數。然后第二次掃描我們只統計落在這個區域中的那些數就可以了。
  實際上,如果不是int是int64,我們可以經過3次這樣的划分即可降低到可以接受的程度。即可以先將int64分成2^24個區域,然后確定區域的第幾大數,在將該區域分成2^20個子區域,然后確定是子區域的第幾大數,然后子區域里的數的個數只有2^20,就可以直接利用direct addr table進行統計了。

17、給40億個不重復的unsigned int的整數,沒排過序的,然后再給一個數,如何快速判斷這個數是否在那40億個數當中?
      用位圖/Bitmap的方法,申請512M的內存,一個bit位代表一個unsigned int值。讀入40億個數,設置相應的bit位,讀入要查詢的數,查看相應bit位是否為1,為1表示存在,為0表示不存在。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM