SRA - NCBI
example - NCBI
要發文章了,審稿時編輯肯定會要求你上傳NGS測序數據。
一般數據都是放在集群,不可能放在個人電腦上,因為有的數據大的嚇人(幾個T)。
所以我們就建一個文件夾,然后把所有需要的fastq文件鏈接到這個文件夾就行了(copy太慢,也太占空間)。
接下來,NCBI賬號申請好了,那就可以直接上傳了,用aspera來上傳。
參考:
原始數據極速上傳NCBI SRA教程 - 比較全面,基本照着做就好了
使用Aspera從EBI或NCBI下載基因組數據 - 補充aspera的使用方法
Tutorial: How to upload your data to the evil Sequence Read Archive (SRA)? - 英文版的,寫的比較規范
你需要下載的是一個叫aspera connect的軟件,aspera系列軟件太多,別下錯了。
這個奇葩的軟件必須要到Linux瀏覽器里才能有下載鏈接出現,所以你得有一個Ubuntu系統。下載好了之后再傳到集群上。
注意有個密鑰(-i 選項)需要從ncbi上下載,最終上傳頁面上有。
NCBI上傳數據到SRA,一切都比較順利,只是需要你自己收集一些信息,填一些表。
這不是問題,要理解NCBI的數據管理架構!!!
但是我卻遇到了一個天大的問題,直接花費了了我一晚上來解決,所以一定要耐心的看NCBi的錯誤提示啊。
Your table upload failed because multiple BioSamples cannot have identical attributes
就是在你填樣品表時,除了一些必備列之外,其他列的信息不能完全一樣!!!
所以我最終的解決方案就是,把樣品名(肯定不一樣)copy到某一列;或者直接在某一列填1累加的數字,防止重復。
如果你不好好看報錯的話,真的是不知道這一步到底錯在哪里。而且大部分老師的樣品就是樣品名不同,其他的信息都一樣,所以看網上求助的人還是很多的,百度基本沒有正確的答案。
之前的教程有誤,現在系統的更正一遍。
1. 注冊NCBI賬號,https://www.ncbi.nlm.nih.gov/
打開首頁,有個大大的submit圖標,注冊好,然后sign in。
選擇自己要submit的項目:
- GenBank:一些組裝好的序列,如基因組DNA,各種RNA
- Sequence Read Archive (SRA):所有的raw data只能上傳到這里
- TSA:Submit computationally assembled, transcribed RNA sequences after submitting unassembled reads to SRA.
- GEO:Submit RNA-seq, ChIP-seq, and other types of gene expression and epigenomics datasets. 也就是我們常用的基因表達數據,這里可以上傳處理后的數據,如count和TPM,FPKM等
- BioProject & BioSample:這是NCBI的核心組織架構,一篇文章就是一個BioProject,一個project里可以包含多個BioSample
推薦:在上傳所有數據前,先建立BioSample條目,然后創建BioProject,將它們組織起來。【這里只是創建空的條目,后面再傳raw data到SRA的時候可以鏈接到一起】
如下就是最終的架構:
我們再看個案例:
https://www.ncbi.nlm.nih.gov/bioproject/PRJNA558807
這里就是一篇NC上的文章,所有數據都放在一個project里,項目名字就是文章名字,介紹就是文章摘要。
Sequence data
- SRA Experiments 12
Publications
- PubMed 1
- PMC 1
Other datasets
- BioSample 12
- GEO DataSets 1
SRA數據上傳操作細節:
這里不建議通過GEO上傳raw data,直接去SRA數據庫。
不要用ftp,除非你的網速和機器十分優秀和穩定,否則建議用aspera。【我用ftp就一直被ncbi拒絕連接】
構建好project喝sample之后,填好sra中fastq與sample的對應關系就可以開始上傳了。
注意:填表的時候一個biosample最多只能有256個fastq文件,如果超過了就必須分批上傳。【一個biosample可以有多行,但是library必須不同,以作區別】
~/.aspera/connect/bin/ascp -i /home/you/.aspera/connect/aspera.openssh -QT -l3m -k1 -d /home/you/project/scRNA-seq/rawData/your.dir/geo_submission_2020Mar30 your.address_from_ncbi
可以用nohup放在后台運行,
關於文件收集:
- 建一個文件夾,如geo_submission_2020Mar30
- 找到之前流程的file list文件,絕對地址不要老是變
- 構建超鏈接,放入子文件夾
- 篩選出特定的樣本文件
cut -f2 all.csv -d, | xargs -I{} ln -s {} ./geo_submission_2020Mar30 cut -f3 all.csv -d, | xargs -I{} ln -s {} ./geo_submission_2020Mar30
關於處理后文件的上傳(基因表達譜):
案例:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE144980
不管再大的項目,流程熟了,基本半個工作日就可以完成數據的上傳,然后看網速,等全部upload了就可以一鍵submit。【我限速3M,大概3個小時可以傳5G的數據】
NCBI的數據管理架構非常值得學習。
ftp的代碼:
open ftp-private.ncbi.nlm.nih.gov ncftp -u geoftp ftp-private.ncbi.nlm.nih.gov cd uploads/ellylab_0zSn02Ma lcd /home/lizhixin/project/scRNA-seq/rawData/SAG_HCO.upload.ncbi put -R geo_submission_2020Mar30