速來圍觀！——三種NCBI常見數據庫

在微生物測序分析中，常常需要對未知的核酸或蛋白序列進行物種,功能或類別注釋。注釋方法種類較多，其中最常用的是與一些標准數據庫進行相似性搜索，也就是序列比對。因此，數據庫的優劣對注釋結果至關重要。本期小編為大家帶來的是NCBI上的三個重要的數據庫—NR/NT，Taxonomy和RefSeq。

NR/NT 數據庫

NR(Non-Redundant Protein Sequence Database)非冗余蛋白庫，所有GenBank+EMBL+DDBJ+PDB中的非冗余蛋白序列，對於所有已知的或可能的編碼序列，NR記錄中都給出了相應的氨基酸序列（通過已知或可能的讀碼框推斷而來）以及專門蛋白數據庫中的序列號。NR庫相當於一個以核酸序列為基礎的交叉索引，將核酸數據和蛋白數據聯系起來。NT(Nucleotide Sequence Database),核酸序列數據庫，是NR庫的子集。

NR和NT庫都可以通過NCBI（National Center for Biotechnology Information,美國國立生物技術信息中心）進行在線BLAST,也可以在ftp://ftp.ncbi.nih.gov/blast/db地址中將數據直接下載下來，需要注意的是，NR和NT庫是被切分為以數字命名的子數據庫上傳的（如下圖所示），將所有的子數據庫放到同一個目錄下，解壓縮后構建索引文件即可。

Taxonomy 數據庫

‍‍

NCBI的分類數據庫，包括大於7萬余個物種的名字和種系，這些物種都至少在遺傳數據庫中有一條核酸或蛋白序列。其目的是為序列數據庫建立一個一致的種系發生分類學。截止發稿日為止該數據庫所包含的物種數目統計表如下:

表1 Taxnomoy數據庫物種數目統計表

下載文件：

https://ftp.ncbi.nih.gov/pub/taxonomy 下載gi_taxid.nucl.dmp.gz（NT記錄ID號與taxid對應關系），gi_taxid.prot.dmp.gz（NR記錄ID號與taxid對應關系）和taxdump.tar.gz三個文件；

taxdump.tar.gz里包含兩個重要文件，即names.dmp和nodes.dmp；

names.dmp

names.dmp文件共包含4列，以“|”分割，各列描述如下：

其中tax_id即為taxonomy的記錄號，name_txt即對應tax_id號的物種名稱。

nodes.dmp

nodes.dmp文件共包含13列，以“|”分割，各列描述如下：

其中，物種分類注釋時需要tax_id（Taxonomy記錄號）,parent tax_id（上一層分類級別的tax_id）和rank（該tax_id所處的分類層級）。

RefSeq數據庫

RefSeq(the reference sequence database,https://www.ncbi.nlm.nih.gov/refseq/ ).參考序列數據庫，包含RefSeq_genomic(NCBI genomic reference sequences)，RefSeq_protein(NCBI protein reference sequences)和RefSeq transpans(NCBI transpans reference sequences)具有生物意義上的非冗余基因,轉錄本和蛋白質序列，是經過NCBI和其他組織校正的數據庫，使用人類基因命名委員會定義的術語，並且包括了官方的基因符號和可選的符號。RefSeq記錄有三種可以獲得的狀態：預測的、臨時的和檢查過的（reviewd）。預測的RefSeq記錄是來自於那些未知功能的cDNA序列，它們有一個預測的蛋白編碼區;臨時的RefSeq記錄還沒有被檢查過,它們是有自動的程序產生的；檢查過的記錄代表了目前關於一個基因和它的轉錄子的知識的匯編，它們很多都來自於GenBank記錄、人類基因組命名委員會和OMIM，RefSeq標准為人類基因組的功能注解提供一個基礎。

RefSeq數據庫和GenBank數據庫的區別在於：GenBank是一個開放的數據庫，對每個基因都含有許多序列。很多研究者或者公司都可以自己提交序列，另外這個數據庫每天都要和EMBL和DDBJ交換數據。genbank的數據可能重復或者不准。而RefSeq數據庫被設計成每個人類位點挑出一個代表序列來減少重復，是NCBI提供的校正的序列數據和相關的信息。數據庫包括構建的基因組contig、mRNA、蛋白和整個染色體。refseq序列是NCBI篩選過的非冗余數據庫，一般可信度比較高。

NCBI作為生信分析最牛逼的網站，還包含有很多其他重要的數據庫，后面幾期小編將為大家逐個介紹，敬請關注！

<本資料整理自網絡，如有雷同，請參考原作者。>

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 構建NCBI本地BLAST數據庫 (NR NT等) | blastx/diamond使用方法 | blast構建索引 | makeblastdb 常見數據庫優化方案（九）常見數據庫設計（4）——樹形結構數據常見數據庫設計（1）——字典數據 NCBI SRA數據庫四款常見數據庫比較同步軟件匯總常見數據庫介紹和使用場景數據庫常見數據類型和約束三種常見的數據庫查詢引擎執行模型數據庫常見的三種join方式