NCBI SRA數據庫


 

簡介

SRA數據庫美國國立衛生研究院(NIH)的高通量測序數據的主要歸檔,是國際核苷酸序列數據庫協作(INSDC)的一部分,其中包括NCBI序列讀取存檔(SRA),歐洲生物信息學研究所(EBI)DNA數據庫 日本(DDBJ)。 提交給三個組織中的任何一個的數據都是共享的。

SRA數據庫數據來自高通量測序平台(Roche 454 GSSystem®,Illumina GenomeAnalyzer®,Applied Biosystems SOLiDSystem®,HelicosHeliscope®,CompleteGenomics®和Pacific BiosciencesSMRT®)的原始測序數據和比對信息,儲存的測序數據在研究團體間可重復使用,並通過比較數據集來實現新發現。

典型的下一代測序工作流程

2017-09-18-next-generation-sequencing-workflow.png

SRA數據庫和NCBI其它的數據庫

NCBI開發和維護了35個以上生物數據類別數據庫,包括科學文獻、健康、基因組、基因、蛋白質和化學品六個大類。

每個數據庫都有自己的最小可發布單元。 例如,PubMed的最小可發布單位是一篇文章,而在SRA中,最小可發布單位是一個實驗(以SRX#的形式登錄)。 SRA實驗包括序列數據和有關生物樣品如何測序的(元數據)。

2017-09-18-gquery.png

SRA數據庫與其它數據庫的交互

所有NCBI數據庫都是互連的。 這種相互關聯可以實現強大的搜索功能。 例如:

查找PubMed中引用SRA研究的文章: “pubmed sra”[Filter]

查找發表在PubMed的SRA實驗:“sra pubmed”[Filter]

同樣,您可以找到與其他NCBI數據庫的SRA連接,反之亦然。

點擊SRA查找,更多例子

SRA數據

SRA接受來自各種測序項目的數據,包括涉及人類受試者或其基因組的臨床重要研究,其可能含有人類序列。 這些數據通常通過dbGaP(基因型和表型數據庫)進行受控訪問。

2017-09-18-sra_access_types.png

SRA數據下載

1.SRA Toolkit工具下載

下載安裝

2.下載數據

首先去NCBI里面搜索並找到你想要的數據的SRA地址,然后寫腳本批量下載。

$ while read line ; do wget $line; done<sra_ftp.txt

2017-09-18-sra_ftp.png

然后解壓*.sra文件

$ for i in $(ls *.sra) ;do echo $i ; fastq-dump –split-3 $i ; done

2017-09-18-sra_to_fastq.png

查看fastq文件

2017-09-18-fastq.png

【參考文獻】

SRA


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM