今天要上NCBI下載sra數據發現沒有下載的鏈接,網上查發現都是老的方法,NCBI頁面已經變更,於是看了NCBI的help,並且記錄下來新版的sra數據下載方法,要用NCBI的工具SRA Toolkit。另外咨詢師兄,總結得到新的wget下載的方法。
方法1 NCBI告知的方法(中斷不能繼續下載)
- 下載SRA Tookit
https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software;點擊software,選擇需要的sra toolkit版本進行下載
下載后直接解壓到某個指定位置
-
搜索SRA並獲取accesion list
在NCBI sra頁面(https://www.ncbi.nlm.nih.gov/sra)輸入登陸號( accession number )進行搜索;顯示搜索結果如下
這里顯示的是該project下的所有數據,點擊一個,進入sra數據界面
這里點擊1GB(數據大小)的鏈接,進入下載界面
再點擊Accesion List 下載 Accesio List -
使用SRA Tookit 的prefetch進行下載
prefetch 放在sratoolkit文件夾下的bin
~/utilities/sratoolkit.2.8.2-1-centos_linux64/bin/prefetch --option-file SRR_Acc_List.txt
sra數據會下載到家目錄下的ncbi/public/sra中,perfetch 默認aspera下載(如果存在於環境變量,否則使用https下載),也可設置aspera,Ex:prefetch -t ascp -a "/opt/aspera/bin/ascp|/opt/aspera/bin/asperaweb_id_dsa.openssh" --option-file file.txt; file.txt 格式為每一行一個SRR#,可以使用下載界面的RunInfo table下載的文件
更詳情的請查看prefetch 幫助:https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=toolkit_doc&f=prefetch
方法2使用wget 下載
以下是NCBI 存放SRR5483089的路徑
ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR548/SRR5483090/
可見ftp構成:
ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/+SRR+登陸號前三位數字(548)+/SRR+完整登陸號(5483089)
進入即可看到FTP文件,可以直接下載或者通過復制鏈接用wget 下載
如果按SRP下載文件的話,構成是
ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/+SRP+SRP前三位數字 (105) +/SRP+SRP的完整登陸號(105315)