使用aspera從EBI下載fastq數據


前面我們大量NGS相關教程視頻免費發布在B站,都是使用NCBI的SRA數據庫下載sra文件后轉為fastq進行NGS分析流程,其實是因為我本人一直不在中國大陸,所以沒有網絡問題。但是學生們不一樣,同樣的命令他們prefetch的下載比蝸牛還慢,即使加上aspera后也會面臨sra文件轉為fastq的限速。所以我們在全國巡講的答疑群給大家指點的解決方案是使用aspera從EBI下載直接fastq數據,一勞永逸。 現在把這個技巧分享給大家,讓我們的講師助教團隊總結了經驗如下:

使用`ascp`從EBI下載fastq數據

mkdir -p /data/project/pig_lncRNA && cd /data/project/pig_lncRNA mkdir -p 1.raw_fq && cd 1.raw_fq 

ENA主頁:https://www.ebi.ac.uk/ena/browser/home

ENA - home

隨便搜索SRR1805951

點擊PRJNA275632

ENA - PRJNA275632

這里可以看到整個數據集所有樣本的fastq下載地址,隨便挑幾個,觀察一下:

ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR180/009/SRR1805929/SRR1805929_1.fastq.gz ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR180/009/SRR1805929/SRR1805929_2.fastq.gz ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR180/000/SRR1805930/SRR1805930_1.fastq.gz ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR180/000/SRR1805930/SRR1805930_2.fastq.gz ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR180/001/SRR1805931/SRR1805931_1.fastq.gz ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR180/007/SRR1805937/SRR1805937_1.fastq.gz ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR180/001/SRR1805951/SRR1805951_1.fastq.gz

是有規律的哦,所以可以構建ascp批量下載命令:

參考:https://www.ebi.ac.uk/ena/browse/read-download#downloading_files_aspera ,下面的shell命令需要仔細理解哦,其中aspera軟件自己下載安裝哦,我們在生信技能樹已經介紹過很多次啦。

for i in {29..64} do a0='/home/cat1988/.aspera/connect/bin/' a1='ascp -QT -l 300m -P33001 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR180/00' a2=$(($i % 10)) a3='/SRR18059'$i a4='_1.fastq.gz .' a5='_2.fastq.gz .' echo $a0$a1$a2$a3$a3$a4 echo $a0$a1$a2$a3$a3$a5 done >> ascp.command 
nohup bash ascp.command & 

坑1

報錯 ascp: Source file list not specified, exiting.

參考:https://www.ebi.ac.uk/ena/browse/read-download#downloading_files_aspera

Downloading files using Aspera

Aspera ascp command line client can be downloaded here. Please select the correct operating system. The ascp command line client is distributed as part of the Aspera connect high-performance transfer browser plug-in.

Your command should look similar to this on Unix:

ascp -QT -l 300m -P33001 -i <aspera connect installation directory>/etc/asper aweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:<file or files to download> <download location>

問題就出在這個<download location>,需要設置下載位置,設置下載到當前文件夾,所以for循環命令中的變量a4a5最后要加.,跟前面的gz用空格隔開。

坑2

關於ascp,安裝ascp時為了方便使用在~/.bashrc設置了別名

alias ascp=/home/cat1988/.aspera/connect/bin/ascp

直接在shell下寫ascp命令,下載速度只有100k/s左右。

for循環寫批量ascp時,一開始是沒有加全路徑(變量a0)的,結果bash ascp.command報錯,乖乖加上全路徑,然后bash,下載速度到了80M/s,意外的驚喜。

坑2總結就是ascp命令要使用全路徑

坑3:

關於ascp軟件下載的坑。ascp這個命令出自軟件Aspera Connect。 參考1:使用Aspera從NCBI或EBI高速下載數據 參考2:Ubuntu下Aspera connect的安裝與使用

Aspera提供了大文件高速傳輸方案,適合於大數據的傳輸。客服端的使用是免費的。

下載地址https://downloads.asperasoft.com/en/downloads/8?list

坑就在這個下載地址,不要用chrome打開這個地址,因為,打開了,你也下不到軟件。

下面這是chrome打開的狀態:

download_aspera_chrome

鼠標點到Linux時,瀏覽器左下角顯示:

下面這是360瀏覽器打開的狀態:

download_aspera_360

網頁有java內容,而chrome不支持java,解決方案就是換個支持java的瀏覽器。相當奇葩的狀況。

另外,其實這個教程是一個系列,我們即將上線在B站的lncRNA-seq數據處理。我們前面已經鋪墊了:lncRNA的一些基礎知識 ,以及lncRNA芯片的一般分析流程和lncRNA-seq數據的一般分析流程!下面我們先看看對參考基因組使用hisat構建索引

豬的參考基因組

http://asia.ensembl.org/info/data/ftp/index.html

ensembl

下載地址:ftp://ftp.ensembl.org/pub/release-99/fasta/sus_scrofa/dna/Sus_scrofa.Sscrofa11.1.dna.toplevel.fa.gz

文獻數據集

本次用到的數據集是GSE65983

建立hisat2豬參考基因組的索引

參考1:參考基因組構建索引

參考2:bwa bowtie2 salmon subread hisat2建索引和比對

  1. 下載豬的參考基因組 下載地址:ftp://ftp.ensembl.org/pub/release-99/fasta/sus_scrofa/dna/Sus_scrofa.Sscrofa11.1.dna.toplevel.fa.gz
  2. 下載豬的基因組注釋文件 下載地址:ftp://ftp.ensembl.org/pub/release-99/gtf/sus_scrofa/Sus_scrofa.Sscrofa11.1.99.gtf.gz
  3. 使用hisat2的extract_exons.pyextract_splice_sites.py分別獲取外顯子可變剪切信息
  4. 使用hisat2-build命令建立索引
mkdir -p /data/reference/genome/pig/ cd /data/reference/genome/pig/ wget -c ftp://ftp.ensembl.org/pub/release-99/fasta/sus_scrofa/dna/Sus_scrofa.Sscrofa11.1.dna.toplevel.fa.gz gunzip S* mkdir -p /data/reference/gtf/pig/ && cd /data/reference/gtf/pig/ wget -c ftp://ftp.ensembl.org/pub/release-99/gtf/sus_scrofa/Sus_scrofa.Sscrofa11.1.99.gtf.gz gunzip S* hisat2_extract_exons.py Sus_scrofa.Sscrofa11.1.99.gtf > pig.genome.exon hisat2_extract_splice_sites.py Sus_scrofa.Sscrofa11.1.99.gtf > pig.genome.ss mkdir -p /data/reference/index/hisat2/pig && cd /data/reference/index/hisat2/pig ln -s /data/reference/genome/pig/Sus_scrofa.Sscrofa11.1.dna.toplevel.fa ./ ln -s /data/reference/gtf/pig/pig.genome.* ./ hisat2-build -p 4 pig.genome.fa --ss pig.genome.ss --exon pig.genome.exon pig hisat2-build -p 2 pig.genome.fa --ss pig.genome.ss --exon pig.genome.exon pig hisat2-build -p 4 pig.genome.fa pig 

加入可變剪切exon信息,報錯:

Ran out of memory; automatically trying more memory-economical parameters.

網上搜索解決方案,

https://anjingwd.github.io/2018/04/19/hisat2構建GRCH38轉錄組index內存不足/

首先查看hisat2官網的manual,可以看到這樣一句話: If you use –snp, –ss, and/or –exon, hisat2-build will need about 200GB RAM for the human genome size as index building involves a graph construction. Otherwise, you will be able to build an index on your desktop with 8GB RAM.

嘗試了更改線程數去掉ss文件,只保留exon文件,仍然報錯,只能用最簡單的命令構建索引了:

hisat2-build -p 4 pig.genome.fa pig 

https://blog.csdn.net/qq_42100966/article/details/84190086

 

來源:

https://cloud.tencent.com/developer/article/1587554

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM