前面我們大量NGS相關教程視頻免費發布在B站,都是使用NCBI的SRA數據庫下載sra文件后轉為fastq進行NGS分析流程,其實是因為我本人一直不在中國大陸,所以沒有網絡問題。但是學生們不一樣,同樣的命令他們prefetch的下載比蝸牛還慢,即使加上aspera后也會面臨sra文件轉為fastq的限速。所以我們在全國巡講的答疑群給大家指點的解決方案是使用aspera從EBI下載直接fastq數據,一勞永逸。 現在把這個技巧分享給大家,讓我們的講師助教團隊總結了經驗如下:
使用`ascp`從EBI下載fastq數據
mkdir -p /data/project/pig_lncRNA && cd /data/project/pig_lncRNA mkdir -p 1.raw_fq && cd 1.raw_fq
ENA主頁:https://www.ebi.ac.uk/ena/browser/home

ENA - home
隨便搜索SRR1805951

點擊PRJNA275632

ENA - PRJNA275632
這里可以看到整個數據集所有樣本的fastq下載地址,隨便挑幾個,觀察一下:
ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR180/009/SRR1805929/SRR1805929_1.fastq.gz ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR180/009/SRR1805929/SRR1805929_2.fastq.gz ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR180/000/SRR1805930/SRR1805930_1.fastq.gz ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR180/000/SRR1805930/SRR1805930_2.fastq.gz ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR180/001/SRR1805931/SRR1805931_1.fastq.gz ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR180/007/SRR1805937/SRR1805937_1.fastq.gz ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR180/001/SRR1805951/SRR1805951_1.fastq.gz
是有規律的哦,所以可以構建ascp
批量下載命令:
參考:https://www.ebi.ac.uk/ena/browse/read-download#downloading_files_aspera ,下面的shell命令需要仔細理解哦,其中aspera軟件自己下載安裝哦,我們在生信技能樹已經介紹過很多次啦。
for i in {29..64} do a0='/home/cat1988/.aspera/connect/bin/' a1='ascp -QT -l 300m -P33001 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR180/00' a2=$(($i % 10)) a3='/SRR18059'$i a4='_1.fastq.gz .' a5='_2.fastq.gz .' echo $a0$a1$a2$a3$a3$a4 echo $a0$a1$a2$a3$a3$a5 done >> ascp.command
nohup bash ascp.command &
坑1:
報錯 ascp: Source file list not specified, exiting.
參考:https://www.ebi.ac.uk/ena/browse/read-download#downloading_files_aspera
Downloading files using Aspera
Aspera ascp command line client can be downloaded here. Please select the correct operating system. The ascp command line client is distributed as part of the Aspera connect high-performance transfer browser plug-in.
Your command should look similar to this on Unix:
ascp -QT -l 300m -P33001 -i <aspera connect installation directory>/etc/asper aweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:<file or files to download> <download location>
問題就出在這個<download location>
,需要設置下載位置,設置下載到當前文件夾,所以for循環
命令中的變量a4
和a5
最后要加.
,跟前面的gz
用空格隔開。
坑2:
關於ascp
,安裝ascp
時為了方便使用在~/.bashrc
設置了別名
alias ascp=/home/cat1988/.aspera/connect/bin/ascp
直接在shell下寫ascp
命令,下載速度只有100k/s左右。
for循環
寫批量ascp
時,一開始是沒有加全路徑(變量a0
)的,結果bash ascp.command
報錯,乖乖加上全路徑,然后bash
,下載速度到了80M/s,意外的驚喜。
坑2總結就是ascp
命令要使用全路徑
坑3:
關於ascp
軟件下載的坑。ascp
這個命令出自軟件Aspera Connect
。 參考1:使用Aspera從NCBI或EBI高速下載數據 參考2:Ubuntu下Aspera connect的安裝與使用
Aspera提供了大文件高速傳輸方案,適合於大數據的傳輸。客服端的使用是免費的。
下載地址https://downloads.asperasoft.com/en/downloads/8?list
坑就在這個下載地址
,不要用chrome打開這個地址,因為,打開了,你也下不到軟件。
下面這是chrome打開的狀態:

download_aspera_chrome
鼠標點到Linux時,瀏覽器左下角顯示:

下面這是360瀏覽器打開的狀態:

download_aspera_360
網頁有java內容,而chrome不支持java,解決方案就是換個支持java的瀏覽器。相當奇葩的狀況。
另外,其實這個教程是一個系列,我們即將上線在B站的lncRNA-seq數據處理。我們前面已經鋪墊了:lncRNA的一些基礎知識 ,以及lncRNA芯片的一般分析流程和lncRNA-seq數據的一般分析流程!下面我們先看看對參考基因組使用hisat構建索引

豬的參考基因組
http://asia.ensembl.org/info/data/ftp/index.html

ensembl
下載地址:ftp://ftp.ensembl.org/pub/release-99/fasta/sus_scrofa/dna/Sus_scrofa.Sscrofa11.1.dna.toplevel.fa.gz

文獻數據集
本次用到的數據集是GSE65983

建立hisat2豬參考基因組的索引
參考1:參考基因組構建索引
參考2:bwa bowtie2 salmon subread hisat2建索引和比對
- 下載豬的參考基因組 下載地址:ftp://ftp.ensembl.org/pub/release-99/fasta/sus_scrofa/dna/Sus_scrofa.Sscrofa11.1.dna.toplevel.fa.gz
- 下載豬的基因組注釋文件 下載地址:ftp://ftp.ensembl.org/pub/release-99/gtf/sus_scrofa/Sus_scrofa.Sscrofa11.1.99.gtf.gz
- 使用hisat2的
extract_exons.py
和extract_splice_sites.py
分別獲取外顯子
和可變剪切
信息 - 使用
hisat2-build
命令建立索引
mkdir -p /data/reference/genome/pig/ cd /data/reference/genome/pig/ wget -c ftp://ftp.ensembl.org/pub/release-99/fasta/sus_scrofa/dna/Sus_scrofa.Sscrofa11.1.dna.toplevel.fa.gz gunzip S* mkdir -p /data/reference/gtf/pig/ && cd /data/reference/gtf/pig/ wget -c ftp://ftp.ensembl.org/pub/release-99/gtf/sus_scrofa/Sus_scrofa.Sscrofa11.1.99.gtf.gz gunzip S* hisat2_extract_exons.py Sus_scrofa.Sscrofa11.1.99.gtf > pig.genome.exon hisat2_extract_splice_sites.py Sus_scrofa.Sscrofa11.1.99.gtf > pig.genome.ss mkdir -p /data/reference/index/hisat2/pig && cd /data/reference/index/hisat2/pig ln -s /data/reference/genome/pig/Sus_scrofa.Sscrofa11.1.dna.toplevel.fa ./ ln -s /data/reference/gtf/pig/pig.genome.* ./ hisat2-build -p 4 pig.genome.fa --ss pig.genome.ss --exon pig.genome.exon pig hisat2-build -p 2 pig.genome.fa --ss pig.genome.ss --exon pig.genome.exon pig hisat2-build -p 4 pig.genome.fa pig
加入可變剪切
和exon
信息,報錯:
Ran out of memory; automatically trying more memory-economical parameters.
網上搜索解決方案,
https://anjingwd.github.io/2018/04/19/hisat2構建GRCH38轉錄組index內存不足/
首先查看hisat2官網的manual,可以看到這樣一句話: If you use –snp, –ss, and/or –exon, hisat2-build will need about 200GB RAM for the human genome size as index building involves a graph construction. Otherwise, you will be able to build an index on your desktop with 8GB RAM.
嘗試了更改線程數
,去掉ss文件,只保留exon文件
,仍然報錯,只能用最簡單的命令構建索引了:
hisat2-build -p 4 pig.genome.fa pig
https://blog.csdn.net/qq_42100966/article/details/84190086
來源:
https://cloud.tencent.com/developer/article/1587554