原文:(算法课大报告)大数据的查找与排序

前段时间写的,把老师留的作业写得详细了些,现在把它贴上来,有错误欢迎指正,有需要改进的地方也欢迎提出 . 题目要求 .数据:sentencesFile.txt是英文语句集合文件。句子之间有字符 n 分割,sentencesFile.txt文件大小 lt GB,其中最短句子长度为 个字符,最长句子长度超过 Kbyte。 计算环境:机器内存为 GB, 个CPU。 要求:设计对于随机输入的句子X判断s ...

2013-06-25 19:51 1 2727 推荐指数:

查看详情

大数据算法

大数据算法 # 参考:http://blog.csdn.net/hguisu/article/details/7856239 http://www.cnblogs.com/allensun/archive/2011/02/16/1956532.html 程序员代码面试指南-第六章 ...

Thu Jun 08 03:27:00 CST 2017 0 8104
怎样查找自己想用的大数据

作者:曹婷婷 链接:https://www.zhihu.com/question/19766160/answer/92693568 来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 首先说下,找各行各业的行业报告的用途是什么? 如果是for公司 ...

Tue Aug 22 05:43:00 CST 2017 0 2769
大数据排序问题

问题 一个文件中有9亿条不重复的9位整数,对这个文件中数字进行排序 直接想法 9亿条(9e8)数据,每个数据能用int存储 因此所需要内存 9e8x4B = 3.6e9B = 3.6GB,这是装载所需要的 排序复杂度一般都是nlogn 因此需要的内存更大 方法一 数据排序 将文本文件 ...

Sat Apr 13 06:44:00 CST 2019 0 901
大数据量的排序算法 -最小堆排序算法

  今天有人推荐了一个排序算法:最小堆排序算法。号称能处理10亿数据排序问题.   正好将要面临2.5亿数据的查询计算比对问题,从没面对过如此大的数据量,之前处理过最大的表不过3000万,心里正有些惴惴不安。正好把这个算法拿来学习揣摩一番。   刚开始随手写了个递归排序,本以为想法是比对一下 ...

Sat Jun 22 00:42:00 CST 2013 1 6894
大数据】Hadoop实验报告

链接地址:【大数据】Hadoop实验报告 目录 实验一 熟悉常用的Linux操作和Hadoop操作 1.实验目的 2.实验平台 3.实验内容和要求 实验二 熟悉常用的HDFS操作 1.实验目的 2.实验 ...

Tue Jun 22 23:37:00 CST 2021 0 247
大数据使用及现状调研报告

大数据使用及现状调研报告   大数据,指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 大数据特征分析  大数据,不仅有“大”这个特点,除此之外,它还有很多其他特色。在这 ...

Sun Jun 30 10:23:00 CST 2019 0 2611
大数据算法题(一)

分类:海量数据处理面试题 1.海量日志数据,提取出某日访问百度次数最多的那个IP。   首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到ip是32位的,最多有个2^32个ip。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,在找出每个 ...

Fri Aug 14 19:30:00 CST 2015 0 5364
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM