簡介
SRA數據庫是美國國立衛生研究院(NIH)的高通量測序數據的主要歸檔,是國際核苷酸序列數據庫協作(INSDC)的一部分,其中包括NCBI序列讀取存檔(SRA),歐洲生物信息學研究所(EBI)和DNA數據庫 日本(DDBJ)。 提交給三個組織中的任何一個的數據都是共享的。
SRA數據庫數據來自高通量測序平台(Roche 454 GSSystem®,Illumina GenomeAnalyzer®,Applied Biosystems SOLiDSystem®,HelicosHeliscope®,CompleteGenomics®和Pacific BiosciencesSMRT®)的原始測序數據和比對信息,儲存的測序數據在研究團體間可重復使用,並通過比較數據集來實現新發現。
典型的下一代測序工作流程
SRA數據庫和NCBI其它的數據庫
NCBI開發和維護了35個以上生物數據類別數據庫,包括科學文獻、健康、基因組、基因、蛋白質和化學品六個大類。
每個數據庫都有自己的最小可發布單元。 例如,PubMed的最小可發布單位是一篇文章,而在SRA中,最小可發布單位是一個實驗(以SRX#的形式登錄)。 SRA實驗包括序列數據和有關生物樣品如何測序的(元數據)。
SRA數據庫與其它數據庫的交互
所有NCBI數據庫都是互連的。 這種相互關聯可以實現強大的搜索功能。 例如:
查找PubMed中引用SRA研究的文章: “pubmed sra”[Filter]
查找發表在PubMed的SRA實驗:“sra pubmed”[Filter]
同樣,您可以找到與其他NCBI數據庫的SRA連接,反之亦然。
SRA數據
SRA接受來自各種測序項目的數據,包括涉及人類受試者或其基因組的臨床重要研究,其可能含有人類序列。 這些數據通常通過dbGaP(基因型和表型數據庫)進行受控訪問。

SRA數據下載
1.SRA Toolkit工具下載
2.下載數據
首先去NCBI里面搜索並找到你想要的數據的SRA地址,然后寫腳本批量下載。
$ while read line ; do wget $line; done<sra_ftp.txt

然后解壓*.sra文件
$ for i in $(ls *.sra) ;do echo $i ; fastq-dump –split-3 $i ; done

查看fastq文件

【參考文獻】


