原文:R語言基因組數據分析可能會用到的data.table函數整理

版權聲明:本文為博主原創文章,轉載請注明出處 R語言data.table包是自帶包data.frame的升級版,用於數據框格式數據的處理,最大的特點快。包括兩個方面,一方面是寫的快,代碼簡潔,只要一行命令就可以完成諸多任務,另一方面是處理快,內部處理的步驟進行了程序上的優化,使用多線程,甚至很多函數是使用C寫的,大大加快數據運行速度。因此,在對大數據處理上,使用data.table無疑具有極高的 ...

2017-03-24 21:56 0 6474 推薦指數:

查看詳情

基因組數據分類並寫出文件,python,awk,R data.table速度PK

由於基因組數據過大,想進一步用R語言處理擔心系統內存不夠,因此想着將文件按染色體拆分,發現python,awk,R 語言都能夠非常簡單快捷的實現,那么速度是否有差距呢,因此在跑幾個50G的大文件之前,先用了244MB的數據對各個腳本進行測試,並且將其速度進行對比。 首先是awk處理 ...

Sun Mar 26 18:01:00 CST 2017 0 1354
R語言數據分析利器data.table包 —— 數據框結構處理精講

版權聲明:本文為博主原創文章,轉載請注明出處     R語言data.table包是自帶包data.frame的升級版,用於數據框格式數據的處理,最大的特點快。包括兩個方面,一方面是寫的快,代碼簡潔,只要一行命令就可以完成諸多任務,另一方面是處理快,內部處理的步驟進行了程序上的優化 ...

Tue Mar 21 03:32:00 CST 2017 0 24437
【3】腫瘤基因組數據分析方法概述

目錄 腫瘤基因組分析 腫瘤標准分析 高級分析 腫瘤數據庫 腫瘤基因組分析 腫瘤進化過程 基本概念:germline/somatic/driver/passenger mutation 二次打擊學說:生殖突變+體細胞突變 主要 ...

Tue Aug 25 17:46:00 CST 2020 0 948
《全基因組測序WGS數據分析——1.DNA測序技術》學習筆記

WGS(Whole Genome Sequencing) 指將物種細胞里面完整的基因組序列全部DNA,檢測並排列,此技術幾乎能夠鑒定出基因組上任何類型的突變。 對於人類來說,全基因組測序的價值是極大的,它的信息包含了所有基因和生命特征之間的內在關聯性,當然也意味着更大的數據解讀 ...

Tue Jun 29 19:59:00 CST 2021 0 161
基因組數據分析原始數據到變異數據(Fastq->VCF)

WGS數據分析目的:檢測出每個樣本基因組中的變異集合(不同樣本中的差異序列)WGS數據分析流程分為三步:原始數據質控 -> 數據預處理 -> 變異檢測1.原始數據質控階段:拿到原始測序數據 -> QC過濾低質量的read數據2.數據預處理階段:read比對 -> sort ...

Sat May 30 06:20:00 CST 2020 0 771
R語言data.table包fread讀取數據

R語言處理大規模數據速度不算快,通過安裝其他包比如data.table可以提升讀取處理速度。 案例,分別用read.csv和data.table包的fread函數讀取一個1.67萬行、230列的表格數據。 參考資料: R語言data.table速查(博客園 ...

Mon Jul 15 18:08:00 CST 2019 0 3130
《全基因組測序WGS數據分析——1.DNA測序技術》學習筆記WGS

WGS(Whole Genome Sequencing) 指將物種細胞里面完整的基因組序列全部DNA,檢測並排列,此技術幾乎能夠鑒定出基因組上任何類型的突變。 對於人類來說,全基因組測序的價值是極大的,它的信息包含了所有基因和生命特征之間的內在關聯性,當然也意味着更大的數據解讀 ...

Fri Jul 02 02:01:00 CST 2021 0 204
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM