使用 PhyML 構建進化樹


 

1. PhyML 簡介

使用 PhyML 構建最大似然樹。
參考文獻:New Algorithms and Methods to Estimate Maximum-Likelihood Phylogenies: Assessing the Performance of PhyML 3.0

2. PhyML 的下載和安裝

  1. $ wget http://www.atgc-montpellier.fr/download/binaries/phyml/PhyML-3.1.zip
  2. $ unzip PhyML-3.1.zip
  3. $ mv PhyML-3.1 /opt/biosoft/
  4. $ ln -s /opt/biosoft/PhyML-3.1/PhyML-3.1_linux64 /opt/biosoft/PhyML-3.1/PhyML
  5. $ echo 'PATH=$PATH:/opt/biosoft/PhyML-3.1/' >> ~/.
  6. $ source ~/.bashrc

3. PhyML 的使用

PhyML 的輸入文件為 phylip 格式。

常用例子:

  1. $ PhyML -i proteins.phy -d aa -b 1000 -m LG -f m -v e -a e -o tlr

常用參數:

  1. -i seq_file_name
  2. 輸入文件,phylip 格式的多序列比對結果。
  3. -d data_type defaultnt
  4. 該參數的值為 nt, aa generic
  5. -b int
  6. 設置 bootstrap 次數。
  7. -m model
  8. 設置替代模型。 核酸的模型有: HKY85(默認的), JC69, K80, F81, TN93, GTR ; 氨基酸的模型有:LG (默認的), WAG, JTT, MtREV, Dayhoff, DCMut, RtREV, CpREV, VT, Blosum62, MtMam, HIVw, HIVb
  9. -f e,m or fA,fC,fG,fT
  10. 設置頻率計算的方法。 e 表示使用比對結果中不同氨基酸或鹼基出現的頻率來計算; m 表示使用最大似然法計算鹼基頻率,或使用替換模型計算氨基酸頻率; fA,fC,fG,fT 則是 4 個浮點數,表示 4 中鹼基的頻率,僅適合核酸序列。
  11. -v prop_invar
  12. 設置不變位點的比例,是一個[0,1]區間的值。或者使用 e 表示程序獲得其最大似然估計值。
  13. -a gamma
  14. gamma 分布的參數。此參數值是個正數,或者使用 e 表示程序獲得其最大似然估計值。在 ProtTest 軟件給出的最優模型中含有 G 時,使用該參數。
  15. -o params
  16. 參數優化的選項。t 表示對 tree topology 進行優化; l 表示對 branch length 進行優化; r 表示對 rate parameters 優化。
  17. params=tlr 這表示對 3 者都進行優化。 params=n 表示不進行優化。

4. PhyML 結果

PhyML 的輸出結果為:

  1. proteins.phy_phyml_tree.txt : 最大似然法構建的進化樹
  2. proteins.phy_phyml_boot_stats.txt : bootstrap 的統計信息
  3. proteins.phy_phyml_boot_trees.txt : bootstrap
  4. proteins.phy_phyml_stats.txt : 程序運行的中的參數和結果統計

原文來自:

http://www.chenlianfu.com/?p=2221

https://www.plob.org/article/9891.html


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM