只要有ENA千萬別用NCBI!!!!
最近開始分析網上Download的數據,一開始用人家現成的GWAS數據,后來覺得反正自己的數據到手該做的也是要做的,出來混早晚是要還的,所以就開始從頭分析一些SRA的數據,我以為會很簡單,事實證明是我簡單了。
首先我們下了這樣的一串數據,*.sra格式:
-rwxrwxrwx 1 genomics genomics 3446649216 6月 17 12:17 SRR1206512.sra -rwxrwxrwx 1 genomics genomics 2137350143 6月 17 12:13 SRR1206514.sra -rwxrwxrwx 1 genomics genomics 34161688171 6月 17 17:05 SRR1206516.sra -rwxrwxrwx 1 genomics genomics 32445878937 6月 17 17:11 SRR1206517.sra -rwxrwxrwx 1 genomics genomics 31358768652 6月 17 16:40 SRR1206518.sra -rwxrwxrwx 1 genomics genomics 35372407493 6月 17 17:55 SRR1206519.sra
這些數據需要把他們變成fastq格式我們才好下手,這些數據是雙端有150,也有200bp的重測序,也就是說這里的數據是被稱為paired-end的格式,我們在解包的時候就需要注意,一個不小心就把fastq的head弄得亂七八糟沒法往下進行。
sratoolkit
在NCBI里下這個工具集,這里的工具都是分開的,也就是用哪個把路徑復制到哪就可以了,而且需要make一下,安裝完我們就可以用這個來進行SRA的解包工作了。
代碼如下:
這里要注意使用--split-3 這個參數,只有用這個才能正確解開雙端測序的包。
/home/genomics/sratoolkit.2.9.1-1-ubuntu64/bin/fastq-dump.2.9.1 --split-3 <prefix>.sra