基於PASA進行基因預測

本文轉載自查看原文 2020-03-10 15:39 2124 基因預測

PASA, acronym for Program to Assemble Spliced Alignments, is a eukaryotic genome annotation tool that exploits spliced alignments of expressed transcript sequences to automatically model gene structures, and to maintain gene structure annotation consistent with the most recently available experimental sequence data. PASA also identifies and classifies all splicing variations supported by the transcript alignments.

Note:
Combine genome and Trinity de novo RNA-Seq assemblies to generate a comprehensive transcript database.

基於RNA-seq數據，將其利用trinity組裝---》利用PASA將組裝好的序列比對到draft ref----〉預測基因

1、軟件安裝

Trinity

1 conda create -n trinity trinity=2.8.5
2 # 激活環境
3 conda activate trinity

PASA
Mysql數據庫的准備（考慮到Mysql配置需要root權限，非常不方便，推介使用SQLite，比起MySQL速度較慢）

1 ## 創建只讀權限（read-only）用戶和所有權限(read-write)用戶各一個
2 mysql> GRANT SELECT ON *.* TO 'pasa'@'%' IDENTIFIED BY '123456'
3 mysql> GRANT ALL ON *.* TO 'shehb'@'%' IDENTIFIED BY '123456'
4 mysql> FLUSH PRIVILEGES 123456

安裝perl模塊

1 cpanm install DBD::mysql
2 cpanm install GD
3 cpanm install DBD::SQLite (Sqlite需要)

安裝Gmap，blat，fasta3

1 conda install -c bioconda gmap
2 conda install blat
3 conda install fasta3

安裝univec 庫（污染數據庫），並建庫

1 wget ftp://ftp.ncbi.nih.gov/pub/UniVec/UniVec
2 formatdb  -i UniVec -p F

安裝PASA

1 ## 安裝
2 wget https://github.com/PASApipeline/PASApipeline/releases/download/pasa-v2.4.1/PASApipeline.v2.4.1.FULL.tar.gz
3 tar -zxf PASApipeline.v2.4.1.FULL.tar.gz
4 cd PASApipeline.v2.4.1.FULL.tar
5 make -j 8

配置PASA config （如果使用SQLite，則下面MySQL的設置不重要）

 1 ## 配置
 2 cd pasa_conf
 3 cp pasa.CONFIG.template conf.txt
 4 vi conf.txt
 5 
 6 ## 需要修改如下內容：
 7 MYSQL_RW_USER=shehb
 8 MYSQL_RW_PASSWORD=123456
 9 MYSQL_RO_USER=pasa
10 MYSQL_RO_PASSWORD=123456
11 MYSQLSERVER=localhost  此處不能填寫IP
12 PASA_ADMIN_EMAIL=郵箱
13 BASE_PASA_URL=http://pasa-dev.tigr.org/cgi-bin/

修改pasa.alignAssembly.Template.txt

1 cd pasa_conf
2 cp pasa.alignAssembly.Template.txt alignAssembly.config
3 vi alignAssembly.config
4 
5 DATABASE=/tem/mydb.sqlite
6 validate_alignments_in_db.dbi:--MIN_PERCENT_ALIGNED=80
7 validate_alignments_in_db.dbi:--MIN_AVG_PER_ID=80

　　**小提示：

MYSQLDB指定的為工作數據庫運行完一次后需要刪除該數據庫, 否則下次運行會報錯；
如果DATABASE設置的為絕對路徑（ie. /tem/mydb.sqlite）,將會利用SQLite；如果僅僅用一個簡單名字（ie. my_pasa_db），則默認使用MySQL

2、運行

轉錄組組裝（Trinity de novo）

1 ## 結果trinity_out_dir/Triity.fasta
2 Trinity --seqType fq --max_memory 50G --left reads_1.fq  --right reads_2.fq --CPU 6
3 # 參數
4 --seqType <string>      :type of reads: ('fa' or 'fq')
5 --max_memory <string>      :suggested max memory to use by Trinity where limiting can be enabled
6 --left  <string>    :left reads, one or more file names (separated by commas, no spaces)
7 --right <string>    :right reads, one or more file names (separated by commas, no spaces)

轉錄組組裝（Trinity genome-guieded)

1 Trinity --genome_guided_bam rnaseq_alignments.csorted.bam \
2         --max_memory 50G \
3         --genome_guided_max_intron 10000 \
4          --CPU 6                        
5 
6 
7 ## 說明
8 若有多個樣本的sorted.bam文件，則需使用samtools  merge 將其merge
9 結果為Trinity_GG.fasta

以上兩種方法可以選用一種作為transcript.fasta即可

過濾轉錄本序列（可選）

1 /PASApipeline.v2.4.1/bin/seqclean transcript.fasta -v /path/to/your/UniVec

得到transcript.fasta.cln, transcript.fasta.clean

PASA將Trinity組裝結果回帖到參考基因組

 1 Launch_PASA_pipeline.pl \
 2                     -c alignAssembly.config\
 3                     -C -R  \
 4                     -g example.fa.masked \
 5                     -t transcript.fasta.clean \
 6　　　　　　　　　　　　 -T -u transcript.fasta \
 7                     --ALIGNERS blat,gmap  \
 8                     --CPU 12 
 9 
 10 ## 參數
11 -c <filename> *  比對配置文件
12 -C  flag, create MYSQL database
13 -R  flag, run alignment/assembly pipeline
14 -g <filename> *  參考基因組
15 -t <filename> *  轉錄組組裝的序列
16 --ALIGNERS  比對軟件，可以只用一個
17 -- CUP 線程數

這一步得到的<prefix>.assemblies.fasta和<prefix>.pasa_assemblies.gff3, 其中gff3用於后面分析

====================分割線=====================

此外，也可根據PASA將轉錄組回帖到基因組的結果，從中提取ORF，用於訓練基因集合，來用於其它基因預測軟件。比如：AUGUSTUS

從PASA組裝中提取ORF

1 PASApipeline-v2.3.3/scripts/pasa_asmbls_to_training_set.dbi \
2     --pasa_transcripts_fasta <prefix>.assemblies.fasta \
3     --pasa_transcripts_gff3 <prefix>.pasa_assemblies.gff3
4 
5 
6 ##結果
7 <prefix>.assemblies.fasta.transdecoder.cds/pep/gff3/bed: 雖然不再基因組上，但是根據轉錄本信息，有可能是編碼區的結果
8 <prefix>.assemblies.fasta.transdecoder.genome.bed/gff3: 對應基因組序列的基因模型

我們需要的是后者，並對其進行格式轉化gff3---> Genbank格式，進行augustus訓練，---具體可查看 Augugtus基因注釋

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Augustus 進行基因注釋 PASA安裝用libsvm進行回歸預測機器學習模型進行predict預測時，預測全為1 用R和BioConductor進行基因芯片數據分析(六)：差異表達基因神經網絡進行分類預測用LSTM進行時間序列預測使用keras的LSTM進行預測----實戰練習實戰--利用HierarchicalClustering 進行基因表達聚類分析 41、OrthoMCL和mcl軟件進行基因家族分析

基於PASA進行基因預測

1、軟件安裝

Trinity

PASA

2、運行

轉錄組組裝（Trinity de novo）

轉錄組組裝（Trinity genome-guieded)

過濾轉錄本序列（可選）

PASA將Trinity組裝結果回帖到參考基因組

從PASA組裝中提取ORF

ref

基因結構注釋軟件PASA安裝全紀錄

PASA的安裝與使用

使用MAKER進行基因注釋(高級篇之AUGUSTUS模型訓練

Githup

免責聲明！