【文章推荐】给定a、b两个文件，各存放50亿个url，每个url各占用64字节，内存限制是4G，如何找出a、b文件共同的url？

原文：给定a、b两个文件，各存放50亿个url，每个url各占用64字节，内存限制是4G，如何找出a、b文件共同的url？

题目描述：给定a b两个文件，各存放亿个url，每个url各占用字节，内存限制是 G，如何找出a b文件共同的url 分析：我们先来看如果要把这些URL全部加载到内存中，需要多大的空间。 MB W GB 亿亿 G Byte G 明显是不可能全部加载到内存中的。我们可采用以下方法解决：方法：采用Bloom filter，假设布隆过滤器的错误率为 . ，则位数组大小m约为输入元素个数n的 ...

2017-10-19 09:37 0 2124 推荐指数：

查看详情

给定a、b两个文件，各存放50亿个url，每个url各占用64字节，内存限制是4G，如何找出a、b文件共同的url？

可以估计每个文件的大小为5G*64=300G，远大于4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。遍历文件a，对每个url求取hash(url)%1000，然后根据所得值将url分别存储到1000个小文件（设为a0,a1,...a999）当中。这样每个小文件的大小约为 ...

面试- 阿里-. 大数据题目- 给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url?

假如每个url大小为10bytes，那么可以估计每个文件的大小为50G×64=320G，远远大于内存限制的4G，所以不可能将其完全加载到内存中处理，可以采用分治的思想来解决。　　Step1：遍历文件a，对每个url求取hash(url)%1000，然后根据所取得的值将url分别存储到1000 ...

有10 亿个 url，每个 url 大小小于 56B，要求去重，内存只给你4G

问题:有10 亿个 url，每个 url 大小小于 56B，要求去重，内存只给你4G 思路： 1.首先将给定的url调用hash方法计算出对应的hash的value，在10亿的url中相同url必然有着相同的value。 2.将文件的hash table 放到第value%n台机 ...

如果有一个20g的日志文件，日志文件记录着用户访问过的url，每一行为一个url，给你一台512M的主机，找出出现次数最多的10个url？

TOP K 算法 ...

通过网络URL获取文件

...

JS通过URL上传文件

点击查看详细内容详细代码 ...

js通过url上传文件

var xhr = new XMLHttpRequest();xhr.open('GET', "http://abc/a.jpg");xhr.responseType = 'blob';xhr.onl ...

url文件的格式

[DEFAULT]BASEURL=[InternetShortcut]URL=WorkingDirectory=ShowCommand=IconIndex=IconFile=Modified=HotKey=　　其中BASEURL、URL和WorkingDirectory这3项的含义是不言而明 ...

原文：给定a、b两个文件，各存放50亿个url，每个url各占用64字节，内存限制是4G，如何找出a、b文件共同的url？

相关推荐

相关标签