最近处理一份1000G+的大文件,直接loading进内存不可能,只能分片读取。文件介绍如下:
该文件是一份压缩的比对后文件(sam文件),该文件由很多细小的结构单元组成,一个结构如下:
两种方法:
1、用open([buffer])的方法;
2、根据文件内容的结构快读取;
由于该文件有自己的结构,如果直接用open的buffer的方法,很粗暴地根据一次性读取一定大小的文件内容的方法,容易把文件读碎了。
根据文件的结构特点,用流的方法读取处理。编码如下:
最近处理一份1000G+的大文件,直接loading进内存不可能,只能分片读取。文件介绍如下:
该文件是一份压缩的比对后文件(sam文件),该文件由很多细小的结构单元组成,一个结构如下:
两种方法:
1、用open([buffer])的方法;
2、根据文件内容的结构快读取;
由于该文件有自己的结构,如果直接用open的buffer的方法,很粗暴地根据一次性读取一定大小的文件内容的方法,容易把文件读碎了。
根据文件的结构特点,用流的方法读取处理。编码如下:
本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。