原文:5亿整数的大文件,怎么排?

问题 给你 个文件bigdata,大小 M, 亿个数,文件中的数据随机,如下一行一个整数: 现在要对这个文件进行排序,怎么搞 内部排序 先尝试内排,选 种排序方式: 路快排: 归并排序: 数据太多,递归太深 gt 栈溢出 加大Xss 数据太多,数组太长 gt OOM 加大Xmx 耐心不足,没跑出来.而且要将这么大的文件读入内存,在堆中维护这么大个数据量,还有内排中不断的拷贝,对栈和堆都是很大的压力 ...

2015-06-15 04:19 5 6997 推荐指数:

查看详情

面试被问傻!5亿个数大文件怎么排序?

曾经被问傻的一道面试题分享给你: 给你1个文件bigdata,大小4663M,5亿个数,文件中的数据随机,如下一行一个整数: 现在要对这个文件进行排序,怎么搞? 内部排序 先尝试内,选2种排序方式: 3路快: 归并排序: 数据太多,递归太深 ->栈溢出?加大 ...

Mon Apr 27 23:08:00 CST 2020 0 1143
30G 上亿数据的超大文件,如何快速导入生产环境?

Hello,大家好,我是楼下小黑哥~ 如果给你一个包含一亿行数据的超大文件,让你在一周之内将数据转化导入生产数据库,你会如何操作? 上面的问题其实是小黑哥前段时间接到一个真实的业务需求,将一个老系统历史数据通过线下文件的方式迁移到新的生产系统。 由于老板们已经敲定了新系统上线时间,所以只留给 ...

Thu Dec 24 16:32:00 CST 2020 32 3968
【面试被虐】如何只用2GB内存从20亿,40亿,80亿整数中找到出现次数最多的数?

这几天小秋去面试了,不过最近小秋学习了不少和位算法相关文章,例如 【面试现场】如何判断一个数是否在40亿整数中? 【算法技巧】位运算装逼指南 对于算法题还是有点信心的,,,,于是,发现了如下对话。 20亿级别 面试官:如果我给你 2GB 的内存,并且给你 20 亿个 int 型整数 ...

Thu Jun 06 17:39:00 CST 2019 38 6344
如何从40亿整数中找到不存在的一个

原文地址:https://www.yanbinghu.com/2018/12/22/40915.html 前言 给定一个最多包含40亿个随机排列的32位的顺序整数的顺序文件,找出一个不在文件中的32位整数。(在文件中至少确实一个这样的数-为什么?)。在具有足够内存的情况下,如何解决该问题 ...

Thu Dec 27 04:37:00 CST 2018 8 1433
Java如何上传大文件

1 背景 用户本地有一份txt或者csv文件,无论是从业务数据库导出、还是其他途径获取,当需要使用蚂蚁的大数据分析工具进行数据加工、挖掘和共创应用的时候,首先要将本地文件上传至ODPS,普通的小文件通过浏览器上传至服务器,做一层中转便可以实现,但当这份文件非常大到了10GB级别,我们就需要思考 ...

Mon Sep 28 23:25:00 CST 2020 0 423
如何Python下载大文件

我想用python脚本下载很多文件,但是经常就有那么几个出错,写了个error handling,跳了过去,但是把出错的链接保存了一下。 转过天来,研究了一下出的什么错。 一个报错如下: PS C:\temp> python ...

Fri Sep 14 19:46:00 CST 2018 0 1688
PHP读取大文件

今天在博客上看到别人写的一段PHP读取大文件的方法: 加上下面 获取文件行数的方法,可以配合使用 ...

Thu Jan 16 22:26:00 CST 2014 0 3079
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM