原文:【原创】海量数据处理问题(一) ---- 外排,堆排,K查找的应用

这篇博客源自对一个内存无法处理的词频统计问题的思考,最后给出的解决办法是自己想的,可以肯定这不是最好的解法。但是通过和同学的讨论,仍然感觉这是一个有意义及有意思的问题,所以和大家分享与探讨。 如果有误,请大家指正。如果有更好的方法,望不吝赐教。 提出问题 实际问题: 当前有 T中文关键词数据,需要统计出词频最高的 个词。可用的只有 G内存和磁盘。那么如何提取 大概估算一下这个问题,设中文词汇平均长 ...

2015-01-04 22:17 8 1577 推荐指数:

查看详情

海量数据处理问题

海量数据处理在互联网行业一直是很受关注的一类问题。面对如此庞大的数据量,要在它们当中进行查找、找最值、统计等操作,不难想象,这是一件比较困难的事情。而实际处理当中,通常是会利用 布隆过滤器和 哈希两种数据结构来解决这类问题。 布隆过滤器(Bloom Filter) Bloom Filter ...

Wed Mar 21 01:43:00 CST 2018 0 903
海量数据处理问题汇总及方法总结

面试题中总是有好多海量数据处理问题,在这里列出一些常见问题,便于以后查阅: 类型1:hash映射+hash统计+堆排序 1、 给你A,B两个文件,各存放50亿条URL,每条URL占用64字节,内存限制是4G,让你找出A,B文件共同的URL。 可以估计每个文件安的大小为5G ...

Sat Sep 08 06:05:00 CST 2012 5 4071
海量数据处理之top K问题

题目: CVTE笔试题 https://www.1024do.com/?p=3949 搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来,每个查 ...

Tue Apr 24 17:53:00 CST 2018 0 2449
海量数据处理的 Top K算法(问题) 小顶实现

  问题描述:有N(N>>10000)个整数,求出其中的前K个最大的数。(称作Top k或者Top 10)   问题分析:由于(1)输入的大量数据;(2)只要前K个,对整个输入数据的保存和排序是相当的不可取的。         可以利用数据结构的最小堆来处理问题 ...

Wed Mar 20 23:24:00 CST 2013 4 46219
求助——数据处理问题

  大家好,本人算法菜鸟一枚,有个处理数据问题想了好几天,也初步写了一点代码,总达不到理想的效果,希望高手们指点。   背景与数据细节这里先略过(考虑到公司数据的保密性与表达的无必要性)。   遇到的问题可以简单地归结到两个公式上面:   1、K0 = A1*Px ...

Thu May 29 09:13:00 CST 2014 7 919
海量数据处理分析

1. 海量数据处理分析 (作者 北京迈思奇科技有限公司 戴子良) 原文地址: 转载自:http://blog.csdn.net/DaiZiLiang/archive/2006/12/06/1432193.aspx 笔者在实际工作中,有幸接触到海量数据处理问题,对其进行处理是一项艰巨而复杂 ...

Thu Jul 18 19:52:00 CST 2013 0 3163
海量数据处理

BAT、FLAG(Facebook,LinkedIn,Amazon/Apple,Google)这类涉及到大数据的公司面试的时候都喜欢问关于海量数据处理问题,本文将对海量处理问题进行总结。 我买了July出的《编程之法》,对海量数据处理问题有总结。 问题介绍: 所谓海量数据处理,无非 ...

Thu Aug 18 23:25:00 CST 2016 7 1440
海量数据处理之BitMap

有这样一种场景:一台普通PC,2G内存,要求处理一个包含40亿个不重复并且没有过序的无符号的int整数,给出一个整数,问如果快速地判断这个整数是否在文件40亿个数据当中? 问题思考: 40亿个int占(40亿*4)/1024/1024/1024 大概为14.9G ...

Thu Mar 03 05:11:00 CST 2016 0 1949
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM