上傳RNA-seq數據到NCBI GEO數據庫 | 單細胞RNA數據上傳

本文轉載自查看原文 2018-05-29 16:58 6106 數據庫

SRA - NCBI

example - NCBI

要發文章了，審稿時編輯肯定會要求你上傳NGS測序數據。

一般數據都是放在集群，不可能放在個人電腦上，因為有的數據大的嚇人（幾個T）。

所以我們就建一個文件夾，然后把所有需要的fastq文件鏈接到這個文件夾就行了（copy太慢，也太占空間）。

接下來，NCBI賬號申請好了，那就可以直接上傳了，用aspera來上傳。

參考：　

原始數據極速上傳NCBI SRA教程 - 比較全面，基本照着做就好了

使用Aspera從EBI或NCBI下載基因組數據 - 補充aspera的使用方法　

Tutorial: How to upload your data to the evil Sequence Read Archive (SRA)? - 英文版的，寫的比較規范

你需要下載的是一個叫aspera connect的軟件，aspera系列軟件太多，別下錯了。

這個奇葩的軟件必須要到Linux瀏覽器里才能有下載鏈接出現，所以你得有一個Ubuntu系統。下載好了之后再傳到集群上。

注意有個密鑰（-i 選項）需要從ncbi上下載，最終上傳頁面上有。

NCBI上傳數據到SRA，一切都比較順利，只是需要你自己收集一些信息，填一些表。

這不是問題，要理解NCBI的數據管理架構！！！

但是我卻遇到了一個天大的問題，直接花費了了我一晚上來解決，所以一定要耐心的看NCBi的錯誤提示啊。

Your table upload failed because multiple BioSamples cannot have identical attributes

就是在你填樣品表時，除了一些必備列之外，其他列的信息不能完全一樣！！！

所以我最終的解決方案就是，把樣品名（肯定不一樣）copy到某一列；或者直接在某一列填1累加的數字，防止重復。

如果你不好好看報錯的話，真的是不知道這一步到底錯在哪里。而且大部分老師的樣品就是樣品名不同，其他的信息都一樣，所以看網上求助的人還是很多的，百度基本沒有正確的答案。

之前的教程有誤，現在系統的更正一遍。

1. 注冊NCBI賬號，https://www.ncbi.nlm.nih.gov/

打開首頁，有個大大的submit圖標，注冊好，然后sign in。

選擇自己要submit的項目：

GenBank：一些組裝好的序列，如基因組DNA，各種RNA
Sequence Read Archive (SRA)：所有的raw data只能上傳到這里
TSA：Submit computationally assembled, transcribed RNA sequences after submitting unassembled reads to SRA.
GEO：Submit RNA-seq, ChIP-seq, and other types of gene expression and epigenomics datasets. 也就是我們常用的基因表達數據，這里可以上傳處理后的數據，如count和TPM，FPKM等
BioProject & BioSample：這是NCBI的核心組織架構，一篇文章就是一個BioProject，一個project里可以包含多個BioSample

推薦：在上傳所有數據前，先建立BioSample條目，然后創建BioProject，將它們組織起來。【這里只是創建空的條目，后面再傳raw data到SRA的時候可以鏈接到一起】

如下就是最終的架構：

我們再看個案例：

https://www.ncbi.nlm.nih.gov/bioproject/PRJNA558807

這里就是一篇NC上的文章，所有數據都放在一個project里，項目名字就是文章名字，介紹就是文章摘要。

Sequence data

SRA Experiments 12

Publications

PubMed 1
PMC 1

Other datasets

BioSample 12
GEO DataSets 1

SRA數據上傳操作細節：

這里不建議通過GEO上傳raw data，直接去SRA數據庫。

不要用ftp，除非你的網速和機器十分優秀和穩定，否則建議用aspera。【我用ftp就一直被ncbi拒絕連接】

構建好project喝sample之后，填好sra中fastq與sample的對應關系就可以開始上傳了。

注意：填表的時候一個biosample最多只能有256個fastq文件，如果超過了就必須分批上傳。【一個biosample可以有多行，但是library必須不同，以作區別】

~/.aspera/connect/bin/ascp -i /home/you/.aspera/connect/aspera.openssh -QT -l3m -k1 -d /home/you/project/scRNA-seq/rawData/your.dir/geo_submission_2020Mar30 your.address_from_ncbi

可以用nohup放在后台運行，　　

關於文件收集：

建一個文件夾，如geo_submission_2020Mar30
找到之前流程的file list文件，絕對地址不要老是變
構建超鏈接，放入子文件夾
篩選出特定的樣本文件

cut -f2 all.csv -d, | xargs -I{} ln -s {} ./geo_submission_2020Mar30
cut -f3 all.csv -d, | xargs -I{} ln -s {} ./geo_submission_2020Mar30

關於處理后文件的上傳（基因表達譜）：

案例：https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE144980

不管再大的項目，流程熟了，基本半個工作日就可以完成數據的上傳，然后看網速，等全部upload了就可以一鍵submit。【我限速3M，大概3個小時可以傳5G的數據】

NCBI的數據管理架構非常值得學習。

ftp的代碼：

open ftp-private.ncbi.nlm.nih.gov 
ncftp -u geoftp ftp-private.ncbi.nlm.nih.gov

cd uploads/ellylab_0zSn02Ma
lcd /home/lizhixin/project/scRNA-seq/rawData/SAG_HCO.upload.ncbi
put -R geo_submission_2020Mar30

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 上傳RNA-seq數據到NCBI GEO數據庫 | 單細胞RNA數據上傳單細胞RNA-seq比對定量用什么工具好？使用哪個版本的基因組？數據來說話單細胞 RNA-seq 10X Genomics RNA-seq 數據的簡單分析 A survey of best practices for RNA-seq data analysis RNA-seq數據分析指南 RNA-seq表達數據之樣本PCA分析 ChIP-seq | ATAC-seq | RNA-seq | 數據分析流程 Circular RNA的產生機制、功能及RNA-seq數據鑒定方法 Analysis of single cell RNA-seq data（單細胞終極課程）什么是RNA-Seq (RNA Sequencing)