1 步驟和說明
NCBI官方說明
點此處打開提交基因組頁面
以下例子:純菌的基因組草圖用於新菌鑒定
。
1.1 提交基因組數據到 NCBI 需要什么?
.fsa
格式的基因組數據;- fsa 就是用公司返回的
.sqn
的數據改為.fsa
后綴,里面是 fasta格式 的逐條 scarfold 或者 contig。 - 每條序列有唯一的編號,例如contig1,長度不超過50,其他說明不是必須的,因為BioSample里面的信息會自動被加進去。
- 如果里面有NNNNNNNNNNNN說明有Gap,提交之后會需要在Gaps的部分說明
- fsa 就是用公司返回的
BioProject
號;BioSample
號。
1.2 Meta data
- 為了簡化填寫,只填帶*的項目。
- 作為例子提交的是從環境樣品中分離純化的細菌菌株的基因組草圖。
提交過程中提供的信息包括:
- 我是誰?我的單位是哪里?我有沒有和其他單位合作?
- 樣品來自哪里?是那種生物信息數據?
- 數據如何獲得的?
1.3 提交步驟
-
申請
BioProject
,BioSample
先空着。- monoisolate
- 幾分鍾內獲得
- 關於你的項目
-
申請 Biosample。
Target
這里如果organism
自己取了一個NCBI系統中不存在的名字,NCBI會分配新的taxonomy ID
需要1-2工作日。- 如果選擇已有的最近似的物種名,則不需要等待,輸入部分關鍵詞,然后按上下鍵,會提供備選的名字。
- 不論哪種情況,
strain
應該填自己的菌株的特定編號。 - 如需要等待 Taxonomy ID 提交完成后,會在后台看到用
橙色文字
說明的提示信息。
-
如果 BioProject 只包含一個 BioSample,可以同時提交 BioSample 和 BioProject,方法 見后
-
以上兩個號拿到后,提交
*.fsa
的基因組,Home 找到New Submission
。- 根據解壓后的ClearData的大小/組裝數據的大小除以基因組的大小得到Coverage,按210x的格式填寫,后面是小寫字母x。
-
如果沒有問題1-2個工作日收到信息,告訴你釋放的日期和 GenBank No,字母接一大串0000就是。
例如:3月23日獲得BioSample號,27日提交基因組,28日收到郵件說明4月1日釋放。
2 注意事項
- 提交過程中請勾選
使用基因注釋流程就能同步完成注釋
。注釋了之后就能找到16S rRNA等信息。
ANNOTATE THIS PROKARYOTIC GENOME IN THE NCBI PROKARYOTIC ANNOTATION PIPELINE BEFORE BEING RELEASED
- NCBI 提供 google 地圖預覽經緯度。這里的格式不是度分,是小數點,所以需要轉換一下。這里提供一個經緯度轉換和查詢的網站
- 不需要轉換為
.sqn
格式,那是有蛋白質注釋的情況下才用的。 - 提交的是草圖,屬於Whole Genome Shotgun (WGS),如果是完成圖就是 non-WGS。因為是草圖,所以所有的序列沒有拼成一條,所以才會有很多contig或者scarfold。至於總數量和拼接的以及測序的好壞有關。scarfold是用contig拼起來。
- 數據在幾個MB左右,所以選擇用
HTTP
在線傳就可以。 - 注意關注注冊NCBI的郵箱,如果有問題,能及時修改。
3 同時提交 BioProject 和 BioSample 的方法
- 前題BioProject只包含一個BioSample
- SUBMITTER 個人信息
- PROJECT TYPE:
- Genome sequencing and assembly
- monoisolate
- TARGET
- 如果是新菌寫 sp. Strain 寫你的菌株號
- 如果是模式菌寫物種名,Strain可以寫購買菌種保藏號
- GENERAL INFO
- PROJECT TITLE
- 自動生成的,可以再增加菌株編號
- PUBLIC DESCRIPTION
- 例如:For bacterial novel spices identification
- BioSample頁面點連接,進入
Biosample提交
- General INFO 沒有改
- Sample type Microbe
- 填寫的時候isolate source 是指樣品的來源,比如底泥
- Sample type其實指的是你用來測基因組的樣品,所以我們的是cell culture
- Title 最好改為改為 XX.sp strain No. isolated from XX
- 提交完成之后會返回到BioProject的提交,兩邊已經自動匹配上
- 如果沒有publications就跳過
- 再完成review就結束了。
4 關於提交 scaffolds 還是 contigs
- 寫郵件問過,得到了如下回復。
Without seeing the files, it is difficult to guess what the scaffold file looks like.
You definately can submit the contig file+agp file (split submission format). If the
scaffold file is joining the contigs with Ns that represent assembly gaps, it can be
the gapped submission format. When you submit the scaffold fasta file to our submission
portal, the portal will guide you through by asking you questions about the Ns in the
fasta sequences.
For more information about the split submission format vs. the gapped submission format,
please consult https://www.ncbi.nlm.nih.gov/genbank/wgsfaq/#q5.You don't have to change the seqids of the fasta unless you want them to be more
cosmetically appearing.
-
再回到公司返回的數據,的確是有兩種fasta格式的文件。舉個例子:
- 一種是
scaffold
,其中序列命名是scaffold1,scaffold2,scaffold3...
, - 另外一種是
contig
的,其中序列命名是scaffold1-1,scaffold1-2,scaffold2-1,scaffold3-1...
- 也就是說
scaffold1-1,scaffold1-2
對應的是scarfold1
,雖然他們是contig
但是名字是scaffoldXX
也沒有問題,這個工作人員也和我確認了。
- 一種是
-
那么到底是依據什么拼接的?
- 你應該能找到一個
agp
文件,這個文件說明如何拼裝。所以如果選擇上傳contig
文件應該把這個也一起傳上去。這就是工作人員說的split submission format
。 - 當然,更簡單的就是,就傳 scaffold 文件。如果里面有
N
也就是 gap,系統會自動識別到,然后問你這些 gap 是怎么回事。常見原因就是 paired-ends read 不懂一般不改就可以。
- 你應該能找到一個