【文章推薦】給定a、b兩個文件，各存放50億個url，每個url各占用64字節，內存限制是4G，如何找出a、b文件共同的url？

原文：給定a、b兩個文件，各存放50億個url，每個url各占用64字節，內存限制是4G，如何找出a、b文件共同的url？

題目描述：給定a b兩個文件，各存放億個url，每個url各占用字節，內存限制是 G，如何找出a b文件共同的url 分析：我們先來看如果要把這些URL全部加載到內存中，需要多大的空間。 MB W GB 億億 G Byte G 明顯是不可能全部加載到內存中的。我們可采用以下方法解決：方法：采用Bloom filter，假設布隆過濾器的錯誤率為 . ，則位數組大小m約為輸入元素個數n的 ...

2017-10-19 09:37 0 2124 推薦指數：

查看詳情

給定a、b兩個文件，各存放50億個url，每個url各占用64字節，內存限制是4G，如何找出a、b文件共同的url？

可以估計每個文件的大小為5G*64=300G，遠大於4G。所以不可能將其完全加載到內存中處理。考慮采取分而治之的方法。遍歷文件a，對每個url求取hash(url)%1000，然后根據所得值將url分別存儲到1000個小文件（設為a0,a1,...a999）當中。這樣每個小文件的大小約為 ...

面試- 阿里-. 大數據題目- 給定a、b兩個文件，各存放50億個url，每個url各占64字節，內存限制是4G，讓你找出a、b文件共同的url?

假如每個url大小為10bytes，那么可以估計每個文件的大小為50G×64=320G，遠遠大於內存限制的4G，所以不可能將其完全加載到內存中處理，可以采用分治的思想來解決。　　Step1：遍歷文件a，對每個url求取hash(url)%1000，然后根據所取得的值將url分別存儲到1000 ...

有10 億個 url，每個 url 大小小於 56B，要求去重，內存只給你4G

問題:有10 億個 url，每個 url 大小小於 56B，要求去重，內存只給你4G 思路： 1.首先將給定的url調用hash方法計算出對應的hash的value，在10億的url中相同url必然有着相同的value。 2.將文件的hash table 放到第value%n台機 ...

如果有一個20g的日志文件，日志文件記錄着用戶訪問過的url，每一行為一個url，給你一台512M的主機，找出出現次數最多的10個url？

TOP K 算法 ...

通過網絡URL獲取文件

...

JS通過URL上傳文件

點擊查看詳細內容詳細代碼 ...

js通過url上傳文件

var xhr = new XMLHttpRequest();xhr.open('GET', "http://abc/a.jpg");xhr.responseType = 'blob';xhr.onl ...

url文件的格式

[DEFAULT]BASEURL=[InternetShortcut]URL=WorkingDirectory=ShowCommand=IconIndex=IconFile=Modified=HotKey=　　其中BASEURL、URL和WorkingDirectory這3項的含義是不言而明 ...

原文：給定a、b兩個文件，各存放50億個url，每個url各占用64字節，內存限制是4G，如何找出a、b文件共同的url？

相關推薦

相關標簽