原文:R语言基因组数据分析可能会用到的data.table函数整理

版权声明:本文为博主原创文章,转载请注明出处 R语言data.table包是自带包data.frame的升级版,用于数据框格式数据的处理,最大的特点快。包括两个方面,一方面是写的快,代码简洁,只要一行命令就可以完成诸多任务,另一方面是处理快,内部处理的步骤进行了程序上的优化,使用多线程,甚至很多函数是使用C写的,大大加快数据运行速度。因此,在对大数据处理上,使用data.table无疑具有极高的 ...

2017-03-24 21:56 0 6474 推荐指数:

查看详情

基因组数据分类并写出文件,python,awk,R data.table速度PK

由于基因组数据过大,想进一步用R语言处理担心系统内存不够,因此想着将文件按染色体拆分,发现python,awk,R 语言都能够非常简单快捷的实现,那么速度是否有差距呢,因此在跑几个50G的大文件之前,先用了244MB的数据对各个脚本进行测试,并且将其速度进行对比。 首先是awk处理 ...

Sun Mar 26 18:01:00 CST 2017 0 1354
R语言数据分析利器data.table包 —— 数据框结构处理精讲

版权声明:本文为博主原创文章,转载请注明出处     R语言data.table包是自带包data.frame的升级版,用于数据框格式数据的处理,最大的特点快。包括两个方面,一方面是写的快,代码简洁,只要一行命令就可以完成诸多任务,另一方面是处理快,内部处理的步骤进行了程序上的优化 ...

Tue Mar 21 03:32:00 CST 2017 0 24437
【3】肿瘤基因组数据分析方法概述

目录 肿瘤基因组分析 肿瘤标准分析 高级分析 肿瘤数据库 肿瘤基因组分析 肿瘤进化过程 基本概念:germline/somatic/driver/passenger mutation 二次打击学说:生殖突变+体细胞突变 主要 ...

Tue Aug 25 17:46:00 CST 2020 0 948
《全基因组测序WGS数据分析——1.DNA测序技术》学习笔记

WGS(Whole Genome Sequencing) 指将物种细胞里面完整的基因组序列全部DNA,检测并排列,此技术几乎能够鉴定出基因组上任何类型的突变。 对于人类来说,全基因组测序的价值是极大的,它的信息包含了所有基因和生命特征之间的内在关联性,当然也意味着更大的数据解读 ...

Tue Jun 29 19:59:00 CST 2021 0 161
基因组数据分析原始数据到变异数据(Fastq->VCF)

WGS数据分析目的:检测出每个样本基因组中的变异集合(不同样本中的差异序列)WGS数据分析流程分为三步:原始数据质控 -> 数据预处理 -> 变异检测1.原始数据质控阶段:拿到原始测序数据 -> QC过滤低质量的read数据2.数据预处理阶段:read比对 -> sort ...

Sat May 30 06:20:00 CST 2020 0 771
R语言data.table包fread读取数据

R语言处理大规模数据速度不算快,通过安装其他包比如data.table可以提升读取处理速度。 案例,分别用read.csv和data.table包的fread函数读取一个1.67万行、230列的表格数据。 参考资料: R语言data.table速查(博客园 ...

Mon Jul 15 18:08:00 CST 2019 0 3130
《全基因组测序WGS数据分析——1.DNA测序技术》学习笔记WGS

WGS(Whole Genome Sequencing) 指将物种细胞里面完整的基因组序列全部DNA,检测并排列,此技术几乎能够鉴定出基因组上任何类型的突变。 对于人类来说,全基因组测序的价值是极大的,它的信息包含了所有基因和生命特征之间的内在关联性,当然也意味着更大的数据解读 ...

Fri Jul 02 02:01:00 CST 2021 0 204
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM