原文:将基因组数据分类并写出文件,python,awk,R data.table速度PK

由于基因组数据过大,想进一步用R语言处理担心系统内存不够,因此想着将文件按染色体拆分,发现python,awk,R 语言都能够非常简单快捷的实现,那么速度是否有差距呢,因此在跑几个 G的大文件之前,先用了 MB的数据对各个脚本进行测试,并且将其速度进行对比。 首先是awk处理,awk进行的是逐行处理,具有自己的语法,具有很大的灵活性,一行代码解决,用时 S, 接下来是用python,python ...

2017-03-26 10:01 0 1354 推荐指数:

查看详情

R语言基因组数据分析可能会用到的data.table函数整理

版权声明:本文为博主原创文章,转载请注明出处 R语言data.table包是自带包data.frame的升级版,用于数据框格式数据的处理,最大的特点快。包括两个方面,一方面是写的快,代码简洁,只要一行命令就可以完成诸多任务,另一方面是处理快,内部处理的步骤进行了程序上 ...

Sat Mar 25 05:56:00 CST 2017 0 6474
Rdata.table -melt/dcast(数据合并和拆分)

Rdata.table -melt/dcast(数据拆分和合并) 写在前面:数据整形的过程确实和揉面团有些类似,先将数据通过melt()函数将数据揉开,然后再通过dcast()函数将数据重塑成想要的形状 reshape2包: melt-把宽格式数据转化成长格式。 cast-把长格式 ...

Fri Nov 18 00:08:00 CST 2016 0 25894
R语言data.table包fread读取数据

R语言处理大规模数据速度不算快,通过安装其他包比如data.table可以提升读取处理速度。 案例,分别用read.csv和data.table包的fread函数读取一个1.67万行、230列的表格数据。 参考资料: R语言data.table速查(博客园 ...

Mon Jul 15 18:08:00 CST 2019 0 3130
基因组数据

植物基因组数据库:1、NCBI中的genome,直接下载NCBI上的基因组文件 ftp://ftp.ncbi.nlm.nih.gov/genomes/ 2、植物基因组数据库(包含约30个左右的植物,具体查看:) 30个左右植物基因组对应列表 下载 http ...

Sun Jun 07 05:11:00 CST 2020 0 1657
如何从NCBI下载基因组数据

本文关于如何在 NCBI 的 FTP 里下载需要的基因组数据。 已知信息 例如:我从文献里看到作者测了 Escherichia coli ATCC 25922 的基因组,想从NCBI下载。 原文提供的信息是: This Whole Genome Shotgun ...

Fri Nov 24 17:59:00 CST 2017 0 9524
R中的data.table 快速上手入门

data.table包提供了一个非常简洁的通用格式:DT[i,j,by]。 可以理解为:对于数据集DT,选取子集行i,通过by分组计算j。 对比与dplyr等包,data.table的运行速度更快。 创建方式和data.frame 一样 创建一个data.frame: DF ...

Thu Aug 10 22:29:00 CST 2017 0 3813
Rdata.table速查手册

R语言data.table速查手册 介绍 R中的data.table包提供了一个data.frame的高级版本,让你的程序做数据整型的运算速度大大的增加。data.table已经在金融,基因工程学等领域大放光彩。他尤其适合那些需要处理大型数据集(比如 1GB 到100GB)需要在内存中处理数据 ...

Fri Nov 18 00:02:00 CST 2016 0 22432
 
粤ICP备18138465号  © 2018-2026 CODEPRJ.COM