曾经被问傻的一道面试题分享给你: 给你1个文件bigdata,大小4663M,5亿个数,文件中的数据随机,如下一行一个整数: 现在要对这个文件进行排序,怎么搞? 内部排序 先尝试内排,选2种排序方式: 3路快排: 归并排序: 数据太多,递归太深 ->栈溢出?加大 ...
问题 给你 个文件bigdata,大小 M, 亿个数,文件中的数据随机,如下一行一个整数: 现在要对这个文件进行排序,怎么搞 内部排序 先尝试内排,选 种排序方式: 路快排: 归并排序: 数据太多,递归太深 gt 栈溢出 加大Xss 数据太多,数组太长 gt OOM 加大Xmx 耐心不足,没跑出来.而且要将这么大的文件读入内存,在堆中维护这么大个数据量,还有内排中不断的拷贝,对栈和堆都是很大的压力 ...
2015-06-15 04:19 5 6997 推荐指数:
曾经被问傻的一道面试题分享给你: 给你1个文件bigdata,大小4663M,5亿个数,文件中的数据随机,如下一行一个整数: 现在要对这个文件进行排序,怎么搞? 内部排序 先尝试内排,选2种排序方式: 3路快排: 归并排序: 数据太多,递归太深 ->栈溢出?加大 ...
Hello,大家好,我是楼下小黑哥~ 如果给你一个包含一亿行数据的超大文件,让你在一周之内将数据转化导入生产数据库,你会如何操作? 上面的问题其实是小黑哥前段时间接到一个真实的业务需求,将一个老系统历史数据通过线下文件的方式迁移到新的生产系统。 由于老板们已经敲定了新系统上线时间,所以只留给 ...
这几天小秋去面试了,不过最近小秋学习了不少和位算法相关文章,例如 【面试现场】如何判断一个数是否在40亿个整数中? 【算法技巧】位运算装逼指南 对于算法题还是有点信心的,,,,于是,发现了如下对话。 20亿级别 面试官:如果我给你 2GB 的内存,并且给你 20 亿个 int 型整数 ...
原文地址:https://www.yanbinghu.com/2018/12/22/40915.html 前言 给定一个最多包含40亿个随机排列的32位的顺序整数的顺序文件,找出一个不在文件中的32位整数。(在文件中至少确实一个这样的数-为什么?)。在具有足够内存的情况下,如何解决该问题 ...
...
1 背景 用户本地有一份txt或者csv文件,无论是从业务数据库导出、还是其他途径获取,当需要使用蚂蚁的大数据分析工具进行数据加工、挖掘和共创应用的时候,首先要将本地文件上传至ODPS,普通的小文件通过浏览器上传至服务器,做一层中转便可以实现,但当这份文件非常大到了10GB级别,我们就需要思考 ...
我想用python脚本下载很多文件,但是经常就有那么几个出错,写了个error handling,跳了过去,但是把出错的链接保存了一下。 转过天来,研究了一下出的什么错。 一个报错如下: PS C:\temp> python ...
今天在博客上看到别人写的一段PHP读取大文件的方法: 加上下面 获取文件行数的方法,可以配合使用 ...