CentOS 6.8上安裝指定版本的注釋軟件 VEP,release 93.4


按照同事的要求,安裝 v93.4

1、軟件下載,gitlab中下載軟件一定是到 release中找指定的版本下載,不能直接下載master中的版本,因為master中是開發版本,可能不穩定,只有master開發到一個成熟的階段后,才會發布一個新版本,放到 releases中,如下圖 VEP已經有了111個版本了。

https://github.com/Ensembl/ensembl-vep/releases 

 

 

 實際在網頁上直接下載壓縮包時遇到了點問題,怎么也下載不下來,然后就到服務器上用git命令來clone了,具體命令:

git clone  https://github.com/Ensembl/ensembl-vep.git 

clone之后默認時master中的代碼,用 git tag 可以看到所有的版本號,找到本次的版本: release/93.4 ,然后切換到該tag版本的代碼:

git checkout -b 93.4 release/93.4   ,這個時候版本就切換到了93.4 ,如果怕不是當前版本,可以通過看log核實一下:

先看本地的log 最后一次提交:

 

 

 去網頁上看這個版本最后一次代碼提交對應的標記,如下圖的:4143fcd 與我們上圖中最后一次提交的標記前7位是一樣的(前7位一樣基本就能判斷是一致的了),說明版本沒有問題了。

 

 

 

2、數據庫下載,同樣按照要求下載指定版本的數據庫,下載 GRCh37 版本的3個文件,文件比較大,所以只能放到集群上去下載了,

http://ftp.ensembl.org/pub/release-93/variation/VEP/ 

使用命令,添加-c 是為了斷點續傳,下載過程中斷了好幾次,所以每天需要看一下,下載了5天終於全部下載完成:

wget -c http://ftp.ensembl.org/pub/release-93/variation/VEP/homo_sapiens_vep_93_GRCh37.tar.gz  

參考基因組用的是這個版本: ftp://ftp.ensembl.org/pub/release-75/fasta/homo_sapiens/dna/Homo_sapiens.GRCh37.75.dna.primary_assembly.fa.gz ,下載解壓后放到文件夾:$vep_database/homo_sapiens_refseq/93_GRCh37 ,需要創建索引 fai 和index 文件,這幾個是直接從集群上找到的,所以沒有具體操作。

3、數據庫格式轉換 

可以在軟件目錄下創建兩個文件夾 :vep_database  放數據庫(然后解壓) ,vep_install 這個放安裝過程中的軟件包

然后把這兩個路徑添加到環境變量中:

export VEP_PATH=/share/user1/software/ensembl-vep-release-93.4/vep_install
export VEP_DATA=/share/user1/software/ensembl-vep-release-93.4/vep_database
export PATH=$VEP_PATH/htslib:$PATH
export PERL5LIB=$VEP_PATH:$PERL5LIB

用這個命令對數據庫進行格式轉換,因為數據庫比較大,所以放后台讓他跑去吧:

nohup perl convert_cache.pl --species homo_sapiens --version 93_GRCh37 --dir $VEP_DATA --force_overwrite &

 

4、軟件安裝,這個需要服務器可以連外網,因為要下載一些包,安裝命令很簡單:

perl INSTALL.pl  -h   用這個查看安裝時每個參數的含義,我用到了以下幾個紅框框住的參數:

perl INSTALL.pl -n -s homo_sapiens --ASSEMBLY GRCh37 -d $VEP_PATH  -c  $VEP_DATA

 

 安裝過程中經常會報錯,所以最好找個網絡好的時間安裝,比方說早上八九點,網絡不好報的錯誤大概如下,報這個錯誤之后,就重新開個中斷,重新安裝,多試幾次,最后應該可以成功。

curl failed (000), trying to fetch using LWP::Simple
LWP::Simple failed (500), trying to fetch using HTTP::Tiny
ERROR: Failed last resort of using HTTP::Tiny to download https://raw.githubusercontent.com

這過程中會安裝BioPerl、biodbhts、htslib 到 $vep_install 目錄中,還有VEP的API,會安裝到 $vep_install/Bio/EnsEMBL 中,安裝過程中觀察到了這幾個包的大小:

 25M ensembl-variation.zip
6.9M ensembl.zip
12M release-1-6-924.zip  # 這個是 BioPerl
ensembl-io 這個比較小,沒有看到
只要這幾個包安裝成功了,那基本就沒有問題了。
 
6、插件下載和安裝,git 網址:  https://github.com/Ensembl/VEP_plugins 
 git clone  https://github.com/Ensembl/VEP_plugins.git  ,檢出后把文件夾中的文件全部放到  $vep_database/Plugins 中,即可。
 
5、測試,這個目錄中有測試數據
/share/user1/software/ensembl-vep-release-93.4/examples 
測試命令,對這個軟件不太了解,所以這些參數是干嘛的也不太清楚哈:
perl /share/user1/software/ensembl-vep-release-93.4/vep -input_file /share/user1/software/ensembl-vep-release-93.4/examples/homo_sapiens_GRCh37.vcf --format vcf --output_file examples.vep.vcf --vcf --symbol --terms SO --plugin Downstream --plugin SingleLetterAA --dir /share/work3/liuw4318/software/ensembl-vep-release-93.4/vep_database --fasta /share/work3/liuw4318/software/ensembl-vep-release-93.4/vep_database/homo_sapiens_refseq/93_GRCh37/Homo_sapiens.GRCh37.75.dna.primary_assembly.fa --force_overwrite --species homo_sapiens --assembly GRCh37 --cache --no_progress --offline --hgvs --shift_hgvs 0
 
結果展示:

 

 

OK ,大功告成,給同事使用吧。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM