【只要有ENA千萬別用NCBI】拆分SRA文件,通過SRAtoolkits


只要有ENA千萬別用NCBI!!!!

 

最近開始分析網上Download的數據,一開始用人家現成的GWAS數據,后來覺得反正自己的數據到手該做的也是要做的,出來混早晚是要還的,所以就開始從頭分析一些SRA的數據,我以為會很簡單,事實證明是我簡單了。

 

首先我們下了這樣的一串數據,*.sra格式:

-rwxrwxrwx 1 genomics genomics  3446649216 6月  17 12:17 SRR1206512.sra
-rwxrwxrwx 1 genomics genomics  2137350143 6月  17 12:13 SRR1206514.sra
-rwxrwxrwx 1 genomics genomics 34161688171 6月  17 17:05 SRR1206516.sra
-rwxrwxrwx 1 genomics genomics 32445878937 6月  17 17:11 SRR1206517.sra
-rwxrwxrwx 1 genomics genomics 31358768652 6月  17 16:40 SRR1206518.sra
-rwxrwxrwx 1 genomics genomics 35372407493 6月  17 17:55 SRR1206519.sra

 

這些數據需要把他們變成fastq格式我們才好下手,這些數據是雙端有150,也有200bp的重測序,也就是說這里的數據是被稱為paired-end的格式,我們在解包的時候就需要注意,一個不小心就把fastq的head弄得亂七八糟沒法往下進行。

sratoolkit

在NCBI里下這個工具集,這里的工具都是分開的,也就是用哪個把路徑復制到哪就可以了,而且需要make一下,安裝完我們就可以用這個來進行SRA的解包工作了。

 

代碼如下:

這里要注意使用--split-3 這個參數,只有用這個才能正確解開雙端測序的包。

/home/genomics/sratoolkit.2.9.1-1-ubuntu64/bin/fastq-dump.2.9.1 --split-3 <prefix>.sra


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM