構建系統發育樹
有參考《Genomes of Subaerial Zygnematophyceae Provide Insights into Land Plant Evolution》
最后決定用mafft+phylosuite+raxml
首先需要將序列進行比對 在這里使用mafft
conda install mafft
mkdir mafft && cd mafft
mafft --maxiterate 1000 --localpair input.fa > output.fa
下載phylosuite主要用來提取保守序列
配着這三處設置即可得到提取好的序列
之后將fasta轉化成phylip格式,這里不詳細寫了。
最后直接用conda安裝raxml
raxmlHPC -f a -x 12345 -p 12345 -# 100 -m PROTGAMMALGX -s ex.phy -n ex -T 20
-f a
此參數用於選擇 RAxML 運算的算法。可以設定的值非常之多。 a 表示執行快速 Bootstrap 分析並搜索最佳得分的 ML 樹。
-x 12345
指定一個 int 數作為隨機種子,以啟用快速 Bootstrap 算法。
-p 12345
指定一個隨機數作為 parsimony inferences 的種子。
-# 100
指定 bootstrap 的次數。
-m PROTGAMMALGX
指定核苷酸或氨基酸替代模型。PROTGAMMALGX 的解釋: "PROT" 表示氨基酸替代模型; GAMMA 表示使用 GAMMA 模型; X 表示使用最大似然法估計鹼基頻率。
-s ex.phy
指定輸入文件。phy 格式的多序列比對結果。軟件包中包含一個程序來將 fasta 格式轉換為 phy 格式。
-n ex
輸出文件的后綴為 .ex 。
-T 20
指定多線程運行的 CPUs 。
一些軟件推薦:
(1)同源基因的查找
OrthoMCL or Orthofinder;
(2)多序列比對
Muscle / MAFFT / ClustalW / T-coffee, Muscle 效果好點
(3)調取保守區域,並收尾連接,形成supergene
Gblocks
(4)進化樹構建
RaxML MEGA 等, 很多文獻用RaxML,PhyML或Mrbayes,因為ML樹和貝葉斯進化樹對核苷酸 / 氨基酸替代模型的選擇非常敏感,故在進行進化樹或分化時間構建之前,需對核苷酸 / 氨基酸替代模型進行選擇。(jModelTest 對cDNA進行替代模型選擇,ProtTest 對蛋白進行替代模型選擇)
構建樹的教程:https://www.yuque.com/wusheng/gw7a9p/mcc73y
(5)分化時間分析 divergence time
mcmctree. PAML中的一個程序, BEAST2
(6)基因擴張收縮分析
CAFE
(7)基因是否收到正選擇
codeML PAML中一個程序