作業要求:
本流程學習的文章是:AKAP95 regulates splicing through scaffolding RNAs and RNA processing factors. Nat Commun 2016 Nov 8;7:13347. PMID: 27824034
數據地址:GSE81916
作業:看文章的method,記下所用軟件和參數,理解GEO/SRA數據的數據存放形式
具體步驟
【1】找到數據地址:GSE81916
文獻檢索途徑:谷歌學術、SCI-HUB
AKAP95 regulates splicing through scaffolding RNAs and RNA processing factors. Nat Commun 2016 Nov 8;7:13347. PMID: 27824034
文章中提示數據地址是GSE81916
【2】在NCBI的GEO中下載數據
有很多種方法
方法1:NCBI---SRA數據庫---搜索GSE81916---找到SRA---點擊SRP075747---選擇全部文件---send to ---file---format:Runinfo---creat file即生成了一個SraRunInfo.csv文件,打開該文件,查看SRR0000000標號是多少,然后
編寫腳本,批量下載
# 編寫腳本,批量下載 for i in `seq 56 62` # 用的是反引號 do prefetch SRR35899${i} # prefetch是sratoolkit軟件的一個命令 done
方法2:NCBI---SRA數據庫---搜索GSE81916---找到SRA---點擊SRP075747---選擇全部文件---send to ---file---format:Runinfo---creat file即生成了一個SraRunInfo.csv文件,然后根據文件中的下載地址,用wget命令,批量下載
$ tail -n +1 SraRuninfo.csv | tr ',' '\t' | xargs -i echo {} >> sampleinfo.txt #將csv文件中的逗號分割替換成tab分割 $ head -n1 sampleinfo.txt | tr '\t' '\n' | nl | grep "path" #查找其下載路徑是第幾列 10 downloas_path #返回結果顯示是在第10列 #依次下載 $ tail -n +2 sampleinfo.txt | cut -f 10 | xargs -i wget -c {} #依次提取每一行中的第10列,並利用wget進行下載,依次下載(推薦!) #並行下載 $ tail -n +2 sampleinfo.txt | cut -f 10 | xargs -i echo wget -c {} \& >> download.sh #生成腳本,並行下載 $ bash download.sh #運行腳本進行並行下載
方法3:NCBI---搜索GSE81916---點擊BioProject---復制項目號Accession:PRJNA323422---進入網站SRA Run selecto[https://trace.ncbi.nlm.nih.gov/Traces/study/?go=home]r”
---搜索 PRJNA323422---了解該項目數據的詳細信息
15個樣品的數據文件地址有規律:前面都一樣,最后兩位不同
寫一個腳本,批量下載數據
腳本1: for i in ` seq 56 62`; do wget ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP075/SRP075747/SRR35899${i}/SRR35899${i}.sra #也可以使用axel命令代替wget,axel比wget快一些 done 腳本2: for I in `seq 56 62`; do prefetch SRR35899${i} #prefetch是sratoolkit工具的一個命令 done # 運行腳本 $ bash sra_download.sh
理論知識
GEO數據庫
GEO數據庫隸屬於NCBI,是最大最全面的基因表達數據庫,主要是芯片和轉錄組測序數據。除儲存數據外,也提供一些數據挖掘工具,因此利用好這個數據庫,沒有實驗,沒有自己的數據也能發好文章!
參考資料
轉錄組入門2-如何從NCBI下載高通量數據 | 分享自為知筆記
http://fbb84b26.wiz03.com/share/s/3XK4IC0cm4CL22pU-r1HPcQQ2FSGeS3LE4tM2rg0A-1qRcP-
HOPTOP轉錄組入門(二)讀文獻下數據-轉錄組-生信技能樹
http://www.biotrainee.com/thread-1829-1-1.html