自舉檢驗(bootstrapping)介紹


  基因樹是對一組序列進化關系真實模式的一個估計. 說基因樹是一種估計,是因為在置換數目上存在隨機變異,因而真實的基因樹是未知的. 可以料到,在基因樹中,短的分支比長的分支不可靠.

那么可用什么標准來評價某一特定分支順序的可靠性呢?例如,在圖17.1C中,那些數據是否真的可以將Mo/Ha譜系與Hu/Ba/Co/Sh譜系之前的共同祖先分割開呢?

    評價基因樹中某個節點的可靠性的一種常用方法,稱為自舉法(bootstrapping). 在該法中,通過隨機選擇位點,從實際數據中構造出1000個或更多個不同的數據集. 自舉抽樣是以放回式抽樣的方式進行的,這意味着同一個位點可偶然被選中

兩次或多次. 因而,來自圖17.1A中的序列的一個自舉樣本,是一個以放回抽樣方式隨機選擇的50個位點的樣本. 在一個特定的容量為50的自舉樣本中,預計18個位點會出現1次,9個位點會出現2次,5個位點會出現3次或3次以上,而有18個位點根

本不會出現. 因此,如果基因樹中的某種分支方式被序列中大多數的位點支持,則從大多數自舉樣本得來的基因樹會包含同樣的分支方式,但如果支持某種分支方式的位點數相對較少,則來自許多自舉樣本的基因樹將不包括這種分支方式.

在圖17.1C的基因樹中,在1000個自舉樣本中,支持陰影區所包括的分支順序的樣本不足50%.從實踐上來說,此結果表明,就該蛋白質的這一小段而言,Hu/Ba、Co/Sh和Mo/Ha類群分開的時間非常接近,尚不能解決哪一個分類單元首先分開

的問題。

  以下是詳細圖解:

 

參考資料:

  【1】Genetics Analysis of Genes and Genomes, Daniel L. Hartl,Maryellen Ruvolo

  【2】西北農林科技大學龐紅俠老師生物信息學課堂PPT

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM