上傳RNA-seq數據到NCBI GEO數據庫 | 單細胞RNA數據上傳


SRA - NCBI

example - NCBI

要發文章了,審稿時編輯肯定會要求你上傳NGS測序數據。

一般數據都是放在集群,不可能放在個人電腦上,因為有的數據大的嚇人(幾個T)。

所以我們就建一個文件夾,然后把所有需要的fastq文件鏈接到這個文件夾就行了(copy太慢,也太占空間)。

接下來,NCBI賬號申請好了,那就可以直接上傳了,用aspera來上傳。

 

參考: 

原始數據極速上傳NCBI SRA教程 - 比較全面,基本照着做就好了

使用Aspera從EBI或NCBI下載基因組數據 - 補充aspera的使用方法  

Tutorial: How to upload your data to the evil Sequence Read Archive (SRA)? - 英文版的,寫的比較規范

 

你需要下載的是一個叫aspera connect的軟件,aspera系列軟件太多,別下錯了。

這個奇葩的軟件必須要到Linux瀏覽器里才能有下載鏈接出現,所以你得有一個Ubuntu系統。下載好了之后再傳到集群上。

注意有個密鑰(-i 選項)需要從ncbi上下載,最終上傳頁面上有。

 

NCBI上傳數據到SRA,一切都比較順利,只是需要你自己收集一些信息,填一些表。

 

這不是問題,要理解NCBI的數據管理架構!!!

 

但是我卻遇到了一個天大的問題,直接花費了了我一晚上來解決,所以一定要耐心的看NCBi的錯誤提示啊。

Your table upload failed because multiple BioSamples cannot have identical attributes

就是在你填樣品表時,除了一些必備列之外,其他列的信息不能完全一樣!!!

所以我最終的解決方案就是,把樣品名(肯定不一樣)copy到某一列;或者直接在某一列填1累加的數字,防止重復。

如果你不好好看報錯的話,真的是不知道這一步到底錯在哪里。而且大部分老師的樣品就是樣品名不同,其他的信息都一樣,所以看網上求助的人還是很多的,百度基本沒有正確的答案。


 

 

之前的教程有誤,現在系統的更正一遍。

1. 注冊NCBI賬號,https://www.ncbi.nlm.nih.gov/

打開首頁,有個大大的submit圖標,注冊好,然后sign in。

選擇自己要submit的項目:

  • GenBank:一些組裝好的序列,如基因組DNA,各種RNA
  • Sequence Read Archive (SRA):所有的raw data只能上傳到這里
  • TSA:Submit computationally assembled, transcribed RNA sequences after submitting unassembled reads to SRA.
  • GEO:Submit RNA-seq, ChIP-seq, and other types of gene expression and epigenomics datasets. 也就是我們常用的基因表達數據,這里可以上傳處理后的數據,如count和TPM,FPKM等
  • BioProject & BioSample:這是NCBI的核心組織架構,一篇文章就是一個BioProject,一個project里可以包含多個BioSample

推薦:在上傳所有數據前,先建立BioSample條目,然后創建BioProject,將它們組織起來。【這里只是創建空的條目,后面再傳raw data到SRA的時候可以鏈接到一起】

如下就是最終的架構:

 

 

我們再看個案例:

https://www.ncbi.nlm.nih.gov/bioproject/PRJNA558807

這里就是一篇NC上的文章,所有數據都放在一個project里,項目名字就是文章名字,介紹就是文章摘要。

Sequence data

  • SRA Experiments 12

Publications

  • PubMed 1
  • PMC 1

Other datasets

  • BioSample 12
  • GEO DataSets 1

 

SRA數據上傳操作細節:

這里不建議通過GEO上傳raw data,直接去SRA數據庫。

不要用ftp,除非你的網速和機器十分優秀和穩定,否則建議用aspera。【我用ftp就一直被ncbi拒絕連接】

構建好project喝sample之后,填好sra中fastq與sample的對應關系就可以開始上傳了。

注意:填表的時候一個biosample最多只能有256個fastq文件,如果超過了就必須分批上傳。【一個biosample可以有多行,但是library必須不同,以作區別】

 

~/.aspera/connect/bin/ascp -i /home/you/.aspera/connect/aspera.openssh -QT -l3m -k1 -d /home/you/project/scRNA-seq/rawData/your.dir/geo_submission_2020Mar30 your.address_from_ncbi

可以用nohup放在后台運行,  

 

關於文件收集:

  1. 建一個文件夾,如geo_submission_2020Mar30
  2. 找到之前流程的file list文件,絕對地址不要老是變
  3. 構建超鏈接,放入子文件夾
  4. 篩選出特定的樣本文件
cut -f2 all.csv -d, | xargs -I{} ln -s {} ./geo_submission_2020Mar30
cut -f3 all.csv -d, | xargs -I{} ln -s {} ./geo_submission_2020Mar30

  

 

關於處理后文件的上傳(基因表達譜):

案例:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE144980

 

不管再大的項目,流程熟了,基本半個工作日就可以完成數據的上傳,然后看網速,等全部upload了就可以一鍵submit。【我限速3M,大概3個小時可以傳5G的數據】

NCBI的數據管理架構非常值得學習。

 

 

ftp的代碼:

open ftp-private.ncbi.nlm.nih.gov 
ncftp -u geoftp ftp-private.ncbi.nlm.nih.gov

cd uploads/ellylab_0zSn02Ma
lcd /home/lizhixin/project/scRNA-seq/rawData/SAG_HCO.upload.ncbi
put -R geo_submission_2020Mar30

  


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM