原文:给定a、b两个文件,各存放50亿个url,每个url各占用64字节,内存限制是4G,如何找出a、b文件共同的url?

题目描述:给定a b两个文件,各存放 亿个url,每个url各占用 字节,内存限制是 G,如何找出a b文件共同的url 分析:我们先来看如果要把这些URL全部加载到内存中,需要多大的空间。 MB W GB 亿 亿 G Byte G 明显是不可能全部加载到内存中的。我们可采用以下方法解决: 方法 : 采用Bloom filter,假设布隆过滤器的错误率为 . ,则位数组大小m约为输入元素个数n的 ...

2017-10-19 09:37 0 2124 推荐指数:

查看详情

给定a、b两个文件,各存放50亿url每个url各占用64字节内存限制4G,如何找出a、b文件共同url

可以估计每个文件的大小为5G*64=300G,远大于4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。 遍历文件a,对每个url求取hash(url)%1000,然后根据所得值将url分别存储到1000个小文件(设为a0,a1,...a999)当中。这样每个文件的大小约为 ...

Thu Aug 16 08:25:00 CST 2012 0 4666
面试- 阿里-. 大数据题目- 给定a、b两个文件,各存放50亿url每个url各占64字节内存限制4G,让你找出a、b文件共同url?

假如每个url大小为10bytes,那么可以估计每个文件的大小为50G×64=320G,远远大于内存限制4G,所以不可能将其完全加载到内存中处理,可以采用分治的思想来解决。   Step1:遍历文件a,对每个url求取hash(url)%1000,然后根据所取得的值将url分别存储到1000 ...

Wed Jul 12 19:32:00 CST 2017 0 10029
js通过url上传文件

var xhr = new XMLHttpRequest();xhr.open('GET', "http://abc/a.jpg");xhr.responseType = 'blob';xhr.onl ...

Fri Jul 31 18:03:00 CST 2020 0 810
url文件的格式

[DEFAULT]BASEURL=[InternetShortcut]URL=WorkingDirectory=ShowCommand=IconIndex=IconFile=Modified=HotKey=  其中BASEURL、URL和WorkingDirectory这3项的含义是不言而明 ...

Fri Dec 19 19:47:00 CST 2014 0 2620
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM