轉:https://shengxin.ren/article/16
https://www.cnblogs.com/lmt921108/p/7442699.html
批量下載SRA http://www.360doc.com/content/18/0428/15/48272598_749456477.shtml
我的下載的數據在/home/username/ncbi/public/sra
SRA(Sequence ReadArchive)數據庫是用於存儲二代測序的原始數據,包括 454,Illumina,SOLiD,IonTorrent,Helicos 和 CompleteGenomics。除了原始序列數據外,SRA現在也存在raw reads在參考基因的比對信息。
根據SRA數據產生的特點,將SRA數據分為四類:
-
Studies-- 研究課題
-
Experiments-- 實驗設計
-
Runs-- 測序結果集
-
Samples-- 樣品信息
SRA中數據結構的層次關系為:Studies->Experiments->Samples->Runs.
-
Studies是就實驗目標而言的,一個study 可能包含多個Experiment。
-
Experiments包含了Sample、DNA source、測序平台、數據處理等信息。
-
一個Experiment可能包含一個或多個runs。
-
Runs 表示測序儀運行所產生的reads。
SRA數據庫用不同的前綴加以區分:
-
ERP或SRP表示Studies;
-
SRS 表示 Samples;
-
SRX 表示 Experiments;
-
SRR 表示 Runs;
使用:
搜索相關研究的疾病,選擇相應數據集
點擊第一個案例進入詳細信息界面
Study詳細信息頁面
Experiments詳細信息頁面
Runs詳細信息頁面,選擇要下載的Runs
3、下載數據
要下載SRA數據,我們需要先安裝SRA Toolkit軟件包,下載地址:
https://www.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software
根據自己的環境下載相應的軟件包。
主要包括:
-
CentOS 32/64
-
Ubuntu 32/64
-
MacOS 32/64
-
MS Windows 32/64
以CentOS為例:
1、下載安裝:
wget "http://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/current/sratoolkit.current-centos_linux64.tar.gz"
tar xzf sratoolkit.current-centos_linux64.tar.gz
2、運行下載
cd sratoolkit.2.5.7-centos_linux64/bin
./prefetch SRR2172038
下載完成后,會在你的工作主目錄下生成一個ncbi的文件夾。
cd ncbi/public/sra
查看SRR2172038.sra數據
3、轉換fastq
/sratoolkit.2.5.7-centos_linux64/bin/fastq-dump ./SRR2172038.sra
4、轉換fasta
/sratoolkit.2.5.7-centos_linux64/bin/fastq-dump --fasta ./SRR2172038.sra
批量下載SRA數據
1.新建文件,命令為prefetch_bash.sh (感覺命名簡單粗暴啊)
vi prefetch_bash.sh
#!/bin/bash
for id in $(seq 1 5) #記住該語法
do
prefetch SRR35899${id}
done
3.給文件一個可執行權限
chmod +755 frefetch_bash.sh
4.添加環境變量或者將其move到/usr/bin即可
添加環境變量:
vi ~/.profile
export PATH=/home/lmt/biosoft/data:$PATH
保存之后需source .profile
5.利用prefetch_bash.sh批量下載所需的SRR文件
在終端輸入:prefetch_bash.sh
下載的SRR數據默認存放在:/home/lmt/ncbi/public/sra里