原文:給定a、b兩個文件,各存放50億個url,每個url各占用64字節,內存限制是4G,如何找出a、b文件共同的url?

題目描述:給定a b兩個文件,各存放 億個url,每個url各占用 字節,內存限制是 G,如何找出a b文件共同的url 分析:我們先來看如果要把這些URL全部加載到內存中,需要多大的空間。 MB W GB 億 億 G Byte G 明顯是不可能全部加載到內存中的。我們可采用以下方法解決: 方法 : 采用Bloom filter,假設布隆過濾器的錯誤率為 . ,則位數組大小m約為輸入元素個數n的 ...

2017-10-19 09:37 0 2124 推薦指數:

查看詳情

給定a、b兩個文件,各存放50url每個url各占用64字節內存限制4G,如何找出a、b文件共同url

可以估計每個文件的大小為5G*64=300G,遠大於4G。所以不可能將其完全加載到內存中處理。考慮采取分而治之的方法。 遍歷文件a,對每個url求取hash(url)%1000,然后根據所得值將url分別存儲到1000個小文件(設為a0,a1,...a999)當中。這樣每個文件的大小約為 ...

Thu Aug 16 08:25:00 CST 2012 0 4666
面試- 阿里-. 大數據題目- 給定a、b兩個文件,各存放50url每個url各占64字節內存限制4G,讓你找出a、b文件共同url?

假如每個url大小為10bytes,那么可以估計每個文件的大小為50G×64=320G,遠遠大於內存限制4G,所以不可能將其完全加載到內存中處理,可以采用分治的思想來解決。   Step1:遍歷文件a,對每個url求取hash(url)%1000,然后根據所取得的值將url分別存儲到1000 ...

Wed Jul 12 19:32:00 CST 2017 0 10029
js通過url上傳文件

var xhr = new XMLHttpRequest();xhr.open('GET', "http://abc/a.jpg");xhr.responseType = 'blob';xhr.onl ...

Fri Jul 31 18:03:00 CST 2020 0 810
url文件的格式

[DEFAULT]BASEURL=[InternetShortcut]URL=WorkingDirectory=ShowCommand=IconIndex=IconFile=Modified=HotKey=  其中BASEURL、URL和WorkingDirectory這3項的含義是不言而明 ...

Fri Dec 19 19:47:00 CST 2014 0 2620
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM