一、官方下載工具Sratoolkit安裝
推薦使用conda直接安裝,避免配置環境的麻煩,但sratoolkit在conda鏡像中的包名為sra-tools
1 conda install -y -c bioconda sra-tools
二、SRA文件下載地址獲取
1.NCBI GEO數據庫下載地址
1 https://www.ncbi.nlm.nih.gov/geo/
2.輸入GEO Accession(如GSE52778),點擊搜索,找到測序SRA文件
3. 下載Accession List:一個txt文件包含所有的測序樣本名稱,均對應於上圖左下角的Run
三、數據下載
使用sratoolkit提供的prefetch工具下載,官方文檔中說明prefetch能直接根據txt文件下載,但不曉得哪邊出毛病報錯了,自己編寫循環下載,腳本如下:
1 #!/bin/bash 2 3 #id.txt即為下載的Accession List 4 5 for i in $(cat id.txt) 6 do 7 echo "正在下載文件".$i 8 prefetch $i 9 done 10 echo "文件下載完畢!!" 11 12 #提取下載的文件夾中的.sra文件並刪除源文件夾 13 14 pwd=$(pwd) 15 for i in $(ls) 16 do 17 new_pwd="$pwd/$i" 18 if [ -d $new_pwd ];then 19 mv $new_pwd/* $pwd 20 rm -rf $new_pwd 21 fi 22 done
四、數據轉換
使用sratoolkit提供的fastq-dump將下載的SRA數據轉換成fastq格式
1 #!/bin/bash 2 for i in SRR* 3 do 4 fastq-dump --gzip --split-3 -O './fastq' $i 5 done
參數說明:
1 --gzip 生成壓縮的gz格式fastq文件,以節省磁盤空間 2 -O 輸出文件路徑 3 --split-files 對read進行拆分,默認不對reads進行拆分, 對於單端測序(SE)沒有出現問題.但是對於雙端測序(PE)而言,就會把原本的兩條reads合並成一個 4 --split-spot: 將雙端測序分為兩份,但是都放在同一個文件中 5 --split-files: 將雙端測序分為兩份,放在不同的文件,但是對於一方有而一方沒有的reads直接丟棄 6 --split-3 : 將雙端測序分為兩份,放在不同的文件,但是對於一方有而一方沒有的reads會單獨放在一個文件夾里