按照同事的要求,安裝 v93.4
1、軟件下載,gitlab中下載軟件一定是到 release中找指定的版本下載,不能直接下載master中的版本,因為master中是開發版本,可能不穩定,只有master開發到一個成熟的階段后,才會發布一個新版本,放到 releases中,如下圖 VEP已經有了111個版本了。
https://github.com/Ensembl/ensembl-vep/releases
實際在網頁上直接下載壓縮包時遇到了點問題,怎么也下載不下來,然后就到服務器上用git命令來clone了,具體命令:
git clone https://github.com/Ensembl/ensembl-vep.git
clone之后默認時master中的代碼,用 git tag 可以看到所有的版本號,找到本次的版本: release/93.4 ,然后切換到該tag版本的代碼:
git checkout -b 93.4 release/93.4 ,這個時候版本就切換到了93.4 ,如果怕不是當前版本,可以通過看log核實一下:
先看本地的log 最后一次提交:
去網頁上看這個版本最后一次代碼提交對應的標記,如下圖的:4143fcd 與我們上圖中最后一次提交的標記前7位是一樣的(前7位一樣基本就能判斷是一致的了),說明版本沒有問題了。
2、數據庫下載,同樣按照要求下載指定版本的數據庫,下載 GRCh37 版本的3個文件,文件比較大,所以只能放到集群上去下載了,
http://ftp.ensembl.org/pub/release-93/variation/VEP/
使用命令,添加-c 是為了斷點續傳,下載過程中斷了好幾次,所以每天需要看一下,下載了5天終於全部下載完成:
wget -c http://ftp.ensembl.org/pub/release-93/variation/VEP/homo_sapiens_vep_93_GRCh37.tar.gz
參考基因組用的是這個版本: ftp://ftp.ensembl.org/pub/release-75/fasta/homo_sapiens/dna/Homo_sapiens.GRCh37.75.dna.primary_assembly.fa.gz ,下載解壓后放到文件夾:$vep_database/homo_sapiens_refseq/93_GRCh37 ,需要創建索引 fai 和index 文件,這幾個是直接從集群上找到的,所以沒有具體操作。
3、數據庫格式轉換
可以在軟件目錄下創建兩個文件夾 :vep_database 放數據庫(然后解壓) ,vep_install 這個放安裝過程中的軟件包
然后把這兩個路徑添加到環境變量中:
export VEP_PATH=/share/user1/software/ensembl-vep-release-93.4/vep_install
export VEP_DATA=/share/user1/software/ensembl-vep-release-93.4/vep_database
export PATH=$VEP_PATH/htslib:$PATH
export PERL5LIB=$VEP_PATH:$PERL5LIB
用這個命令對數據庫進行格式轉換,因為數據庫比較大,所以放后台讓他跑去吧:
nohup perl convert_cache.pl --species homo_sapiens --version 93_GRCh37 --dir $VEP_DATA --force_overwrite &
4、軟件安裝,這個需要服務器可以連外網,因為要下載一些包,安裝命令很簡單:
perl INSTALL.pl -h 用這個查看安裝時每個參數的含義,我用到了以下幾個紅框框住的參數:
perl INSTALL.pl -n -s homo_sapiens --ASSEMBLY GRCh37 -d $VEP_PATH -c $VEP_DATA
安裝過程中經常會報錯,所以最好找個網絡好的時間安裝,比方說早上八九點,網絡不好報的錯誤大概如下,報這個錯誤之后,就重新開個中斷,重新安裝,多試幾次,最后應該可以成功。
curl failed (000), trying to fetch using LWP::Simple
LWP::Simple failed (500), trying to fetch using HTTP::Tiny
ERROR: Failed last resort of using HTTP::Tiny to download https://raw.githubusercontent.com
這過程中會安裝BioPerl、biodbhts、htslib 到 $vep_install 目錄中,還有VEP的API,會安裝到 $vep_install/Bio/EnsEMBL 中,安裝過程中觀察到了這幾個包的大小:
6.9M ensembl.zip
12M release-1-6-924.zip # 這個是 BioPerl
ensembl-io 這個比較小,沒有看到

OK ,大功告成,給同事使用吧。