- 本文關於如何在
NCBI
的FTP
里下載需要的基因組數據。
已知信息
- 例如:我從文獻里看到作者測了 Escherichia coli ATCC 25922 的基因組,想從NCBI下載。
原文提供的信息是:
This Whole Genome Shotgun project has been deposited at DDBJ/EMBL/ GenBank under the accession number ASHD00000000. The version described in this paper is version ASHD01000000.
我們獲得的關鍵信息:
- 物種和菌株名字:Escherichia coli ATCC 25922;
- Accession number:
ASHD00000000
; - Version:
ASHD01000000
。
理論
- 平時下載單條序列常常是直接從頁面選擇導出fasta文件,對於基因組則應該找到它在 FTP 中的位置,然后將整個文件夾下載下來。
實際操作
- 在
All database
里搜索Escherichia coli ATCC 25922
后發現在Genome數據庫中有1條信息。開心的點開后發現是所有大腸桿菌的基因組信息,一共有9610個。進入list之后搜索25922沒有任何結果。
問題:這里不支持模糊搜索,如果要得到結果,你需要精確的輸入
Escherichia coli ATCC 25922 Strain: ATCC 25922 Assembly: GCA_000401755.1
。誰會知道這么詳細的信息?
- 正確操作:輸入
25922
之后按上下箭頭
,會自動補齊。
此時你應當在表中找到:
- 可以點進FTP的鏈接。
- Assembly:GCA_000401755.1 。
- WGS:ASHD01。
說明
- 其實我想找的就是這個Assembly No.,因為它直接對應基因組在 FTP 中的文件夾位置。
- 點開FTP鏈接,你會進入以下文件夾:
ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/401/755/GCF_000401755.1_Escherichia_coli_ATCC_25922/
也就是在路徑 genomes → all → GCF → 000 → 401 → 755
中,F 代表這個地方的是 reference sequences
。
實際上在 genomes → all → GCA → 000 → 401 → 755
中有一份一樣的。
-
如果原文提供的是
Assembly No
,你就不需要再去 NCBI 查找了,直接能通過FTP
地址找到,我一般使用FileZilla
來下載。 -
如果下載多個 genomes 也能根據
Assembly No
寫簡單代碼批量下載 代碼 link。 -
而
WGS
里面你可以單獨的看到每個蛋白質,cotig 等的信息,實際上就是把FTP
里面能下的內容拆開了,並且是頁面下載的。 -
NCBI 里面新舊命名系統,一個東西在不同的庫里面有不一樣的名字很是讓新手頭痛。
參考
[1] WGS頁面,此處應搜索ASHD01。
[2] 所有大腸桿菌基因組匯總,此次使用25922補齊信息搜索。
[3] NCBI提供的如何下載基因組說明。
[4] 實現批量下載。