3.測序SRA數據下載與轉換


一、官方下載工具Sratoolkit安裝

  推薦使用conda直接安裝,避免配置環境的麻煩,但sratoolkit在conda鏡像中的包名為sra-tools

1 conda install -y -c bioconda sra-tools

 

二、SRA文件下載地址獲取

 

1.NCBI GEO數據庫下載地址

1 https://www.ncbi.nlm.nih.gov/geo/

 

 

2.輸入GEO Accession(如GSE52778),點擊搜索,找到測序SRA文件

 

 

 

 

 

 

3. 下載Accession List:一個txt文件包含所有的測序樣本名稱,均對應於上圖左下角的Run

 

 

三、數據下載

  使用sratoolkit提供的prefetch工具下載,官方文檔中說明prefetch能直接根據txt文件下載,但不曉得哪邊出毛病報錯了,自己編寫循環下載,腳本如下:

 

 1 #!/bin/bash
 2 
 3 #id.txt即為下載的Accession List
 4 
 5 for i in $(cat id.txt)
 6 do
 7     echo "正在下載文件".$i
 8     prefetch $i
 9 done
10 echo "文件下載完畢!!"
11 
12 #提取下載的文件夾中的.sra文件並刪除源文件夾
13 
14 pwd=$(pwd)
15 for i in $(ls)
16 do
17     new_pwd="$pwd/$i"
18     if [ -d $new_pwd ];then
19         mv $new_pwd/* $pwd
20         rm -rf $new_pwd
21     fi
22 done

 

四、數據轉換

  使用sratoolkit提供的fastq-dump將下載的SRA數據轉換成fastq格式

1 #!/bin/bash
2 for i in SRR*
3 do
4     fastq-dump --gzip --split-3 -O './fastq' $i
5 done

 

參數說明:

1 --gzip    生成壓縮的gz格式fastq文件,以節省磁盤空間
2 -O    輸出文件路徑
3 --split-files    對read進行拆分,默認不對reads進行拆分, 對於單端測序(SE)沒有出現問題.但是對於雙端測序(PE)而言,就會把原本的兩條reads合並成一個
4     --split-spot: 將雙端測序分為兩份,但是都放在同一個文件中
5     --split-files: 將雙端測序分為兩份,放在不同的文件,但是對於一方有而一方沒有的reads直接丟棄
6     --split-3 : 將雙端測序分為兩份,放在不同的文件,但是對於一方有而一方沒有的reads會單獨放在一個文件夾里

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM