如何從NCBI下載基因組數據


  • 本文關於如何在 NCBIFTP 里下載需要的基因組數據。

已知信息

  • 例如:我從文獻里看到作者測了 Escherichia coli ATCC 25922 的基因組,想從NCBI下載。

原文提供的信息是:

This Whole Genome Shotgun project has been deposited at DDBJ/EMBL/ GenBank under the accession number ASHD00000000. The version described in this paper is version ASHD01000000.

我們獲得的關鍵信息:

  1. 物種和菌株名字:Escherichia coli ATCC 25922
  2. Accession number:ASHD00000000;
  3. Version:ASHD01000000

理論

  • 平時下載單條序列常常是直接從頁面選擇導出fasta文件,對於基因組則應該找到它在 FTP 中的位置,然后將整個文件夾下載下來。

實際操作

  • All database 里搜索 Escherichia coli ATCC 25922后發現在Genome數據庫中有1條信息。開心的點開后發現是所有大腸桿菌的基因組信息,一共有9610個。進入list之后搜索25922沒有任何結果。

問題:這里不支持模糊搜索,如果要得到結果,你需要精確的輸入 Escherichia coli ATCC 25922 Strain: ATCC 25922 Assembly: GCA_000401755.1。誰會知道這么詳細的信息?

  • 正確操作:輸入 25922 之后按 上下箭頭,會自動補齊。

此時你應當在表中找到:

  1. 可以點進FTP的鏈接。
  2. Assembly:GCA_000401755.1 。
  3. WGS:ASHD01。

說明

  • 其實我想找的就是這個Assembly No.,因為它直接對應基因組在 FTP 中的文件夾位置。
  • 點開FTP鏈接,你會進入以下文件夾:

ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/401/755/GCF_000401755.1_Escherichia_coli_ATCC_25922/

也就是在路徑 genomes → all → GCF → 000 → 401 → 755 中,F 代表這個地方的是 reference sequences
實際上在 genomes → all → GCA → 000 → 401 → 755 中有一份一樣的。

  • 如果原文提供的是 Assembly No ,你就不需要再去 NCBI 查找了,直接能通過 FTP 地址找到,我一般使用 FileZilla 來下載。

  • 如果下載多個 genomes 也能根據 Assembly No 寫簡單代碼批量下載 代碼 link

  • WGS 里面你可以單獨的看到每個蛋白質,cotig 等的信息,實際上就是把 FTP 里面能下的內容拆開了,並且是頁面下載的。

  • NCBI 里面新舊命名系統,一個東西在不同的庫里面有不一樣的名字很是讓新手頭痛。

參考

[1] WGS頁面,此處應搜索ASHD01。
[2] 所有大腸桿菌基因組匯總,此次使用25922補齊信息搜索。
[3] NCBI提供的如何下載基因組說明。
[4] 實現批量下載。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM