基因樹是對一組序列進化關系真實模式的一個估計. 說基因樹是一種估計,是因為在置換數目上存在隨機變異,因而真實的基因樹是未知的. 可以料到,在基因樹中,短的分支比長的分支不可靠.
那么可用什么標准來評價某一特定分支順序的可靠性呢?例如,在圖17.1C中,那些數據是否真的可以將Mo/Ha譜系與Hu/Ba/Co/Sh譜系之前的共同祖先分割開呢?
評價基因樹中某個節點的可靠性的一種常用方法,稱為自舉法(bootstrapping). 在該法中,通過隨機選擇位點,從實際數據中構造出1000個或更多個不同的數據集. 自舉抽樣是以放回式抽樣的方式進行的,這意味着同一個位點可偶然被選中
兩次或多次. 因而,來自圖17.1A中的序列的一個自舉樣本,是一個以放回抽樣方式隨機選擇的50個位點的樣本. 在一個特定的容量為50的自舉樣本中,預計18個位點會出現1次,9個位點會出現2次,5個位點會出現3次或3次以上,而有18個位點根
本不會出現. 因此,如果基因樹中的某種分支方式被序列中大多數的位點支持,則從大多數自舉樣本得來的基因樹會包含同樣的分支方式,但如果支持某種分支方式的位點數相對較少,則來自許多自舉樣本的基因樹將不包括這種分支方式.
在圖17.1C的基因樹中,在1000個自舉樣本中,支持陰影區所包括的分支順序的樣本不足50%.從實踐上來說,此結果表明,就該蛋白質的這一小段而言,Hu/Ba、Co/Sh和Mo/Ha類群分開的時間非常接近,尚不能解決哪一個分類單元首先分開
的問題。
以下是詳細圖解:
參考資料:
【1】Genetics Analysis of Genes and Genomes, Daniel L. Hartl,Maryellen Ruvolo
【2】西北農林科技大學龐紅俠老師生物信息學課堂PPT