轉載於:http://blog.sciencenet.cn/home.php?mod=space&uid=460481&do=blog&id=1191502
絮語:
重建單倍型網絡是群體遺傳學的一個重要分析內容,最常用的分析工具有Network、TCS等,但不同工具都有相應的優缺點,具有詳見日志后的參考文獻,本文不作贅述。
本文介紹一款全能型的單倍型網絡重建工具-- PopART,該軟件整合了多種不同的單倍型網絡重建算法,支持Windows、Linux、MacOS多平台...
PopART 官網:http://popart.otago.ac.nz/index.shtml
輔助工具:DnaSP 和 Arlequin
簡明流程:
1. 數據格式准備:
PopART 數據格式,主要有兩個data和Traits模塊,紅色部分為主要模板參數,黑色部分需要通過實際數據修改:
Begin Data;
Dimensions ntax=12 nchar=13;
Format datatype=DNA missing=N gap=-;
Matrix
單倍型數據(需要替換上實際數據)
;
END;
Begin Traits;
Dimensions NTraits=4;
format labels=yes missing=? separator=Comma;
TraitLabels Fujian Hebei Heilongjiang Jiangsu;
Matrix
單倍型頻率分布數據(需要替換上實際數據)
;
End;
Raindy 注:
Data 模塊中,ntax是單元類別數,nchart是字符長度,即:序列長度
Traits模塊中,NTraits是性狀數,示例數據為不同地區群體,共有四個;separator是不同性狀群體間的分隔符,可以是逗號也可以是Tab制表符,需要下方的數據統一。示意數據是Comma分隔;TraitLabels是具有的性狀名稱,不同名稱之間由半角空格間隔;
(1)准備 Haplotype 數據和頻率分布數據
將原始FASTA格式的序列文件載入DnaSP后,點擊菜單欄“Data”的“Defined Seeuence sets”對序列根據特定的性狀進行分組(圖1),示例數據根據地區分組,分組完畢 “Update All Entries”。
隨后,依次點擊菜單欄“Generate”->“Haplotye data file”將分組后的數據生成“Arlequin Haplotype List”文件,生成Test.arp和Test.hap 兩個文件,Test.arp用Arlequin的方案文件,Test.hap為單倍型數據文件。
將Test.arp和Test.hap復制到Arlequin目錄中,打開Arlequin主程序,通過“Open project”載入“Test.arp”(圖)
標簽切換到“Structure Edior”對不同地區的群體進行歸組,示例數據的不同群體均為一個組,故“Group”均設置為“1”,並點擊“Update Project”更新項目分組內容:
標簽切換到“Settings”選擇不同的分析內容,可以點擊“Population comparison”選項(由灰變暗紅即啟用),勾選“Compute pairwise Fst”選項,其他參數采用默認設置:
在生成結果文件(Test_main.html)中找到“Haplotype frequencies in populations”內容,復制不同單倍型在不同群體中的頻率分布值(下圖突出選中區域),粘貼入一個空的記事本中並保存為Test_frq.txt。
運行 Excel后打開Test_frq.txt通過導入向導(注意:間隔符號為空格)導入頻率文件,並整理如下格式圖備用(文件名:Test_frq.xlsx)
(2)合並單倍型數據和頻率分布為PopART所需的Nexus文件
用文本編輯類工具(如:Notepad++等)創新一個模板文件,分別在Data模塊和Traits相應的位置中添加入單倍型數據和頻率分布數據,完整如下代碼所示:
#NEXUS
Begin Data;
Dimensions ntax=12 nchar=13;
Format datatype=DNA missing=N gap=-;
Matrix
Hap_1 TACATCAGGGTAG
Hap_2 TACATCAGGGTAC
Hap_3 TACATTAGGGTAC
Hap_4 TCCACCAGGGAAC
Hap_5 TCCATCAGGGTAC
Hap_6 TACATCAGGGTCC
Hap_7 TACAACAGCTTAC
Hap_8 TACAACAGGGTAC
Hap_9 CACCACCACGTAC
Hap_10 TATAACAAGGTAC
Hap_11 TACTTCAGGGAAC
Hap_12 TACAACAGGGAAC
;
END;
Begin Traits;
Dimensions NTraits=4;
format labels=yes missing=? separator=Comma;
TraitLabels Fujian Hebei Heilongjiang Jiangsu;
Matrix
Hap_1 10,0,0,0
Hap_2 19,9,12,10
Hap_3 1,0,0,0
Hap_4 1,0,0,0
Hap_5 1,0,0,0
Hap_6 0,0,1,0
Hap_7 0,0,1,0
Hap_8 0,0,2,0
Hap_9 0,0,1,0
Hap_10 0,0,0,7
Hap_11 0,0,0,2
Hap_12 0,0,0,1
;
End;
2. 繪制單倍型網絡
在PopART中載入格式正確的nexus文件后,在“Network”菜單下選擇一個算法,示例為“TCS Network”,此時默認生成的是黑白樣式的,如下圖所示:
可以在“Edit”菜單下設置包括性狀顏色、標簽字體和圖注字體等屬性:
如果需要修改性狀顏色,在右下角圖注選擇相應的圓圈(如:Fujian前的圓圈),鼠標右鍵彈出“Change trait colour”設置不同的顏色。在PopART中,很多元件(如:單倍型標簽、圖注和外框邊界)都可以直接拖動。
設置完畢后的Haplotype Network可以“File”菜單中導出矢量的圖形,為便於后期在AI中進一步美化,推薦導出svg格式:
以下示意為Minimum Spanning Network算法重建的單倍型網絡圖:
Raindy注:PopART除了可以選擇不同算法重建單倍型網絡圖外,還可以結合地圖(map)進行呈現...
參考文獻:
Leigh, J.W., Bryant, D., 2015. popart: full-feature software for haplotype network construction. Methods in Ecology and Evolution 6, 1110-1116.