NR/NT,Taxonomy和RefSeq——三種NCBI常見數據庫


 速來圍觀!——三種NCBI常見數據庫

在微生物測序分析中,常常需要對未知的核酸或蛋白序列進行物種,功能或類別注釋。注釋方法種類較多,其中最常用的是與一些標准數據庫進行相似性搜索,也就是序列比對。因此,數據庫的優劣對注釋結果至關重要。本期小編為大家帶來的是NCBI上的三個重要的數據庫—NR/NT,Taxonomy和RefSeq

NR/NT 數據庫

NR(Non-Redundant Protein Sequence Database)非冗余蛋白庫,所有GenBank+EMBL+DDBJ+PDB中的非冗余蛋白序列,對於所有已知的或可能的編碼序列,NR記錄中都給出了相應的氨基酸序列(通過已知或可能的讀碼框推斷而來)以及專門蛋白數據庫中的序列號。NR庫相當於一個以核酸序列為基礎的交叉索引,將核酸數據和蛋白數據聯系起來。NT(Nucleotide Sequence Database),核酸序列數據庫,是NR庫的子集。

NR和NT庫都可以通過NCBI(National Center for Biotechnology Information,美國國立生物技術信息中心)進行在線BLAST,也可以在ftp://ftp.ncbi.nih.gov/blast/db地址中將數據直接下載下來,需要注意的是,NR和NT庫是被切分為以數字命名的子數據庫上傳的(如下圖所示),將所有的子數據庫放到同一個目錄下,解壓縮后構建索引文件即可。

Taxonomy 數據庫

‍‍

NCBI的分類數據庫,包括大於7萬余個物種的名字和種系,這些物種都至少在遺傳數據庫中有一條核酸或蛋白序列。其目的是為序列數據庫建立一個一致的種系發生分類學。截止發稿日為止該數據庫所包含的物種數目統計表如下:

表1 Taxnomoy數據庫物種數目統計表

下載文件:

https://ftp.ncbi.nih.gov/pub/taxonomy 下載gi_taxid.nucl.dmp.gz(NT記錄ID號與taxid對應關系),gi_taxid.prot.dmp.gz(NR記錄ID號與taxid對應關系)和taxdump.tar.gz三個文件;

taxdump.tar.gz里包含兩個重要文件,即names.dmp和nodes.dmp;

names.dmp

names.dmp文件共包含4列,以“|”分割,各列描述如下:

其中tax_id即為taxonomy的記錄號,name_txt即對應tax_id號的物種名稱。

nodes.dmp

nodes.dmp文件共包含13列,以“|”分割,各列描述如下:

其中,物種分類注釋時需要tax_id(Taxonomy記錄號),parent tax_id(上一層分類級別的tax_id)和rank(該tax_id所處的分類層級)。

RefSeq數據庫

RefSeq(the reference sequence database,https://www.ncbi.nlm.nih.gov/refseq/ ).參考序列數據庫,包含RefSeq_genomic(NCBI genomic reference sequences),RefSeq_protein(NCBI protein reference sequences)和RefSeq transpans(NCBI transpans reference sequences)具有生物意義上的非冗余基因,轉錄本和蛋白質序列,是經過NCBI和其他組織校正的數據庫,使用人類基因命名委員會定義的術語,並且包括了官方的基因符號和可選的符號。RefSeq記錄有三種可以獲得的狀態:預測的、臨時的和檢查過的(reviewd)。預測的RefSeq記錄是來自於那些未知功能的cDNA序列,它們有一個預測的蛋白編碼區;臨時的RefSeq記錄還沒有被檢查過,它們是有自動的程序產生的;檢查過的記錄代表了目前關於一個基因和它的轉錄子的知識的匯編,它們很多都來自於GenBank記錄、人類基因組命名委員會和OMIM,RefSeq標准為人類基因組的功能注解提供一個基礎。

RefSeq數據庫和GenBank數據庫的區別在於:GenBank是一個開放的數據庫,對每個基因都含有許多序列。很多研究者或者公司都可以自己提交序列,另外這個數據庫每天都要和EMBL和DDBJ交換數據。genbank的數據可能重復或者不准。而RefSeq數據庫被設計成每個人類位點挑出一個代表序列來減少重復,是NCBI提供的校正的序列數據和相關的信息。數據庫包括構建的基因組contig、mRNA、蛋白和整個染色體。refseq序列是NCBI篩選過的非冗余數據庫,一般可信度比較高。

NCBI作為生信分析最牛逼的網站,還包含有很多其他重要的數據庫,后面幾期小編將為大家逐個介紹,敬請關注!

<本資料整理自網絡,如有雷同,請參考原作者。>


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM