速來圍觀!——三種NCBI常見數據庫
在微生物測序分析中,常常需要對未知的核酸或蛋白序列進行物種,功能或類別注釋。注釋方法種類較多,其中最常用的是與一些標准數據庫進行相似性搜索,也就是序列比對。因此,數據庫的優劣對注釋結果至關重要。本期小編為大家帶來的是NCBI上的三個重要的數據庫—NR/NT,Taxonomy和RefSeq。
NR/NT 數據庫
NR(Non-Redundant Protein Sequence Database)非冗余蛋白庫,所有GenBank+EMBL+DDBJ+PDB中的非冗余蛋白序列,對於所有已知的或可能的編碼序列,NR記錄中都給出了相應的氨基酸序列(通過已知或可能的讀碼框推斷而來)以及專門蛋白數據庫中的序列號。NR庫相當於一個以核酸序列為基礎的交叉索引,將核酸數據和蛋白數據聯系起來。NT(Nucleotide Sequence Database),核酸序列數據庫,是NR庫的子集。
NR和NT庫都可以通過NCBI(National Center for Biotechnology Information,美國國立生物技術信息中心)進行在線BLAST,也可以在ftp://ftp.ncbi.nih.gov/blast/db地址中將數據直接下載下來,需要注意的是,NR和NT庫是被切分為以數字命名的子數據庫上傳的(如下圖所示),將所有的子數據庫放到同一個目錄下,解壓縮后構建索引文件即可。
Taxonomy 數據庫
NCBI的分類數據庫,包括大於7萬余個物種的名字和種系,這些物種都至少在遺傳數據庫中有一條核酸或蛋白序列。其目的是為序列數據庫建立一個一致的種系發生分類學。截止發稿日為止該數據庫所包含的物種數目統計表如下:
表1 Taxnomoy數據庫物種數目統計表
下載文件:
https://ftp.ncbi.nih.gov/pub/taxonomy 下載gi_taxid.nucl.dmp.gz(NT記錄ID號與taxid對應關系),gi_taxid.prot.dmp.gz(NR記錄ID號與taxid對應關系)和taxdump.tar.gz三個文件;
taxdump.tar.gz里包含兩個重要文件,即names.dmp和nodes.dmp;
names.dmp
names.dmp文件共包含4列,以“|”分割,各列描述如下:
其中tax_id即為taxonomy的記錄號,name_txt即對應tax_id號的物種名稱。
nodes.dmp
nodes.dmp文件共包含13列,以“|”分割,各列描述如下:
其中,物種分類注釋時需要tax_id(Taxonomy記錄號),parent tax_id(上一層分類級別的tax_id)和rank(該tax_id所處的分類層級)。
RefSeq數據庫
RefSeq(the reference sequence database,https://www.ncbi.nlm.nih.gov/refseq/ ).參考序列數據庫,包含RefSeq_genomic(NCBI genomic reference sequences),RefSeq_protein(NCBI protein reference sequences)和RefSeq transpans(NCBI transpans reference sequences)具有生物意義上的非冗余基因,轉錄本和蛋白質序列,是經過NCBI和其他組織校正的數據庫,使用人類基因命名委員會定義的術語,並且包括了官方的基因符號和可選的符號。RefSeq記錄有三種可以獲得的狀態:預測的、臨時的和檢查過的(reviewd)。預測的RefSeq記錄是來自於那些未知功能的cDNA序列,它們有一個預測的蛋白編碼區;臨時的RefSeq記錄還沒有被檢查過,它們是有自動的程序產生的;檢查過的記錄代表了目前關於一個基因和它的轉錄子的知識的匯編,它們很多都來自於GenBank記錄、人類基因組命名委員會和OMIM,RefSeq標准為人類基因組的功能注解提供一個基礎。
RefSeq數據庫和GenBank數據庫的區別在於:GenBank是一個開放的數據庫,對每個基因都含有許多序列。很多研究者或者公司都可以自己提交序列,另外這個數據庫每天都要和EMBL和DDBJ交換數據。genbank的數據可能重復或者不准。而RefSeq數據庫被設計成每個人類位點挑出一個代表序列來減少重復,是NCBI提供的校正的序列數據和相關的信息。數據庫包括構建的基因組contig、mRNA、蛋白和整個染色體。refseq序列是NCBI篩選過的非冗余數據庫,一般可信度比較高。
NCBI作為生信分析最牛逼的網站,還包含有很多其他重要的數據庫,后面幾期小編將為大家逐個介紹,敬請關注!
<本資料整理自網絡,如有雷同,請參考原作者。>