【轉錄組入門】2:讀文章得到測試數據


作業要求:

本流程學習的文章是:AKAP95 regulates splicing through scaffolding RNAs and RNA processing factors. Nat Commun 2016 Nov 8;7:13347. PMID: 27824034 

數據地址:GSE81916

作業:看文章的method,記下所用軟件和參數,理解GEO/SRA數據的數據存放形式

 

 

具體步驟

【1】找到數據地址:GSE81916

文獻檢索途徑:谷歌學術、SCI-HUB

AKAP95 regulates splicing through scaffolding RNAs and RNA processing factors. Nat Commun 2016 Nov 8;7:13347. PMID: 27824034

文章中提示數據地址是GSE81916

 

【2】在NCBI的GEO中下載數據

有很多種方法

方法1:NCBI---SRA數據庫---搜索GSE81916---找到SRA---點擊SRP075747---選擇全部文件---send to ---file---format:Runinfo---creat file即生成了一個SraRunInfo.csv文件,打開該文件,查看SRR0000000標號是多少,然后

編寫腳本,批量下載

# 編寫腳本,批量下載

for i in `seq 56 62`            # 用的是反引號
do
    prefetch SRR35899${i}       # prefetch是sratoolkit軟件的一個命令
done

 

方法2:NCBI---SRA數據庫---搜索GSE81916---找到SRA---點擊SRP075747---選擇全部文件---send to ---file---format:Runinfo---creat file即生成了一個SraRunInfo.csv文件,然后根據文件中的下載地址,用wget命令,批量下載

$ tail -n +1 SraRuninfo.csv | tr ',' '\t' | xargs -i echo {} >> sampleinfo.txt #將csv文件中的逗號分割替換成tab分割
$ head -n1 sampleinfo.txt | tr '\t' '\n' | nl | grep "path" #查找其下載路徑是第幾列    
  10 downloas_path #返回結果顯示是在第10列

#依次下載
$ tail -n +2 sampleinfo.txt | cut -f 10 | xargs -i wget -c {} #依次提取每一行中的第10列,並利用wget進行下載,依次下載(推薦!)

#並行下載
$ tail -n +2 sampleinfo.txt | cut -f 10 | xargs -i echo wget -c {} \& >> download.sh #生成腳本,並行下載
$ bash download.sh  #運行腳本進行並行下載

 

方法3:NCBI---搜索GSE81916---點擊BioProject---復制項目號Accession:PRJNA323422---進入網站SRA Run selecto[https://trace.ncbi.nlm.nih.gov/Traces/study/?go=home]r

---搜索 PRJNA323422---了解該項目數據的詳細信息

15個樣品的數據文件地址有規律:前面都一樣,最后兩位不同

寫一個腳本,批量下載數據

腳本1:
for i in ` seq 56 62`;
do
    wget ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP075/SRP075747/SRR35899${i}/SRR35899${i}.sra  #也可以使用axel命令代替wget,axel比wget快一些
done

腳本2:
for I in `seq 56 62`;
do
    prefetch SRR35899${i}   #prefetch是sratoolkit工具的一個命令
done

# 運行腳本
$ bash sra_download.sh

 

 

理論知識

GEO數據庫

GEO數據庫隸屬於NCBI,是最大最全面的基因表達數據庫,主要是芯片和轉錄組測序數據。除儲存數據外,也提供一些數據挖掘工具,因此利用好這個數據庫,沒有實驗,沒有自己的數據也能發好文章!

 

 

參考資料

轉錄組入門2-如何從NCBI下載高通量數據 | 分享自為知筆記
http://fbb84b26.wiz03.com/share/s/3XK4IC0cm4CL22pU-r1HPcQQ2FSGeS3LE4tM2rg0A-1qRcP-

HOPTOP轉錄組入門(二)讀文獻下數據-轉錄組-生信技能樹
http://www.biotrainee.com/thread-1829-1-1.html

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM