如何從大量URL中找出相同的URL？

本文轉載自查看原文 2020-03-24 17:31 1018 海量數據處理面試題

題目描述

給定 a、b 兩個文件，各存放 50 億個 URL，每個 URL 各占 64B，內存限制是 4G。請找出 a、b 兩個文件共同的 URL。

解答思路

每個 URL 占 64B，那么 50 億個 URL占用的空間大小約為 320GB。

5,000,000,000 * 64B ≈ 5GB * 64 = 320GB

　　由於內存大小只有 4G，因此，我們不可能一次性把所有 URL 加載到內存中處理。對於這種類型的題目，一般采用分治策略，即：把一個文件中的 URL 按照某個特征划分為多個小文件，使得每個小文件大小不超過 4G，這樣就可以把這個小文件讀到內存中進行處理了。

思路如下：

　　首先遍歷文件 a，對遍歷到的 URL 求 hash(URL) % 1000，根據計算結果把遍歷到的 URL 存儲到 a0, a1, a2, ..., a999，這樣每個大小約為 300MB。使用同樣的方法遍歷文件 b，把文件 b 中的 URL 分別存儲到文件 b0, b1, b2, ..., b999 中。這樣處理過后，所有可能相同的 URL 都在對應的小文件中，即 a0 對應 b0, ..., a999 對應 b999，不對應的小文件不可能有相同的 URL。那么接下來，我們只需要求出這 1000 對小文件中相同的 URL 就好了。

　　接着遍歷 ai( i∈[0,999])，把 URL 存儲到一個 HashSet 集合中。然后遍歷 bi 中每個 URL，看在 HashSet 集合中是否存在，若存在，說明這就是共同的 URL，可以把這個 URL 保存到一個單獨的文件中。

方法總結

　　本題是內存小、文件大，無法一次性處理文件，因此聯想到將大文件分割成小文件，那么如何進行分割就成了核心關鍵點。要求兩大文件分割完畢后有一定的規律性，這里可使用哈希算法，若存在相同URL，那么這兩個URL肯定在相對應的小文件中。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 大量url，如何去重 url中的#、？、@ 如何從大量數據中找出高頻詞如何從大量數據中找出高頻詞什么是URL？ url 什么是URL？快速從2個List集合中找出相同/不同元素微信小程序：wx.navigateTo中url無法跳轉問題（app.json中配置的tabBar與wx.navigateTo中url引用相同頁面導致） springmvc中url-url-pattern /和/*的區別