題目描述:給定a、b兩個文件,各存放50億個url,每個url各占用64字節,內存限制是4G,如何找出a、b文件共同的url? 分析:我們先來看如果要把這些URL全部加載到內存中,需要多大的空間。 1MB = 2^20 = 10^6 = 100W 1GB = 2^30 = 10 ...
可以估計每個文件的大小為 G G,遠大於 G。所以不可能將其完全加載到內存中處理。考慮采取分而治之的方法。 遍歷文件a,對每個url求取hash url ,然后根據所得值將url分別存儲到 個小文件 設為a ,a ,...a 當中。這樣每個小文件的大小約為 M。遍歷文件b,采取和a相同的方法將url分別存儲到 個小文件 b ,b ....b 中。這樣處理后,所有可能相同的url都在對應的小文件 a ...
2012-08-16 00:25 0 4666 推薦指數:
題目描述:給定a、b兩個文件,各存放50億個url,每個url各占用64字節,內存限制是4G,如何找出a、b文件共同的url? 分析:我們先來看如果要把這些URL全部加載到內存中,需要多大的空間。 1MB = 2^20 = 10^6 = 100W 1GB = 2^30 = 10 ...
假如每個url大小為10bytes,那么可以估計每個文件的大小為50G×64=320G,遠遠大於內存限制的4G,所以不可能將其完全加載到內存中處理,可以采用分治的思想來解決。 Step1:遍歷文件a,對每個url求取hash(url)%1000,然后根據所取得的值將url分別存儲到1000 ...
問題:有10 億個 url,每個 url 大小小於 56B,要求去重,內存只給你4G 思路: 1.首先將給定的url調用hash方法計算出對應的hash的value,在10億的url中相同url必然有着相同的value。 2.將文件的hash table 放到第value%n台機 ...
...
點擊查看詳細內容 詳細代碼 ...
var xhr = new XMLHttpRequest();xhr.open('GET', "http://abc/a.jpg");xhr.responseType = 'blob';xhr.onl ...
[DEFAULT]BASEURL=[InternetShortcut]URL=WorkingDirectory=ShowCommand=IconIndex=IconFile=Modified=HotKey= 其中BASEURL、URL和WorkingDirectory這3項的含義是不言而明 ...