如何從NCBI下載基因組數據

本文轉載自查看原文 2017-11-24 09:59 9524 Binary World/ bioinformatics

本文關於如何在 NCBI 的 FTP 里下載需要的基因組數據。

已知信息

例如：我從文獻里看到作者測了 Escherichia coli ATCC 25922 的基因組，想從NCBI下載。

原文提供的信息是：

This Whole Genome Shotgun project has been deposited at DDBJ/EMBL/ GenBank under the accession number ASHD00000000. The version described in this paper is version ASHD01000000.

我們獲得的關鍵信息：

物種和菌株名字：Escherichia coli ATCC 25922；
Accession number：ASHD00000000;
Version：ASHD01000000。

理論

平時下載單條序列常常是直接從頁面選擇導出fasta文件，對於基因組則應該找到它在 FTP 中的位置，然后將整個文件夾下載下來。

實際操作

在All database 里搜索 Escherichia coli ATCC 25922后發現在Genome數據庫中有1條信息。開心的點開后發現是所有大腸桿菌的基因組信息，一共有9610個。進入list之后搜索25922沒有任何結果。

問題：這里不支持模糊搜索，如果要得到結果，你需要精確的輸入 Escherichia coli ATCC 25922 Strain: ATCC 25922 Assembly: GCA_000401755.1。誰會知道這么詳細的信息？

正確操作：輸入 25922 之后按 上下箭頭，會自動補齊。

此時你應當在表中找到：

可以點進FTP的鏈接。
Assembly：GCA_000401755.1 。
WGS：ASHD01。

說明

其實我想找的就是這個Assembly No.，因為它直接對應基因組在 FTP 中的文件夾位置。
點開FTP鏈接，你會進入以下文件夾：

ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/401/755/GCF_000401755.1_Escherichia_coli_ATCC_25922/

也就是在路徑 genomes → all → GCF → 000 → 401 → 755 中，F 代表這個地方的是 reference sequences。
實際上在 genomes → all → GCA → 000 → 401 → 755 中有一份一樣的。

如果原文提供的是 Assembly No ，你就不需要再去 NCBI 查找了，直接能通過 FTP 地址找到，我一般使用 FileZilla 來下載。
如果下載多個 genomes 也能根據 Assembly No 寫簡單代碼批量下載代碼 link。
而 WGS 里面你可以單獨的看到每個蛋白質，cotig 等的信息，實際上就是把 FTP 里面能下的內容拆開了，並且是頁面下載的。
NCBI 里面新舊命名系統，一個東西在不同的庫里面有不一樣的名字很是讓新手頭痛。

參考

[1] WGS頁面，此處應搜索ASHD01。
[2] 所有大腸桿菌基因組匯總，此次使用25922補齊信息搜索。
[3] NCBI提供的如何下載基因組說明。
[4] 實現批量下載。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 如何到NCBI提交基因組從NCBI中下載各物種參考基因組基因組數據庫基因組注釋參考基因組千人基因組計划數據庫下載某段區域SNP 如何識別自己基因組數據是哪個全基因組參考版本（Genome Reference Versions/ Genome Build）參考基因組及注釋文件下載動物基因組與植物基因組基本差異二代數據組裝葉綠體基因組