自舉檢驗(bootstrapping)介紹

本文轉載自查看原文 2019-06-30 22:33 1376 生物信息學

基因樹是對一組序列進化關系真實模式的一個估計. 說基因樹是一種估計,是因為在置換數目上存在隨機變異,因而真實的基因樹是未知的. 可以料到,在基因樹中,短的分支比長的分支不可靠.

那么可用什么標准來評價某一特定分支順序的可靠性呢?例如,在圖17.1C中,那些數據是否真的可以將Mo/Ha譜系與Hu/Ba/Co/Sh譜系之前的共同祖先分割開呢?

評價基因樹中某個節點的可靠性的一種常用方法,稱為自舉法(bootstrapping). 在該法中,通過隨機選擇位點,從實際數據中構造出1000個或更多個不同的數據集. 自舉抽樣是以放回式抽樣的方式進行的,這意味着同一個位點可偶然被選中

兩次或多次. 因而,來自圖17.1A中的序列的一個自舉樣本,是一個以放回抽樣方式隨機選擇的50個位點的樣本. 在一個特定的容量為50的自舉樣本中,預計18個位點會出現1次,9個位點會出現2次,5個位點會出現3次或3次以上,而有18個位點根

本不會出現. 因此,如果基因樹中的某種分支方式被序列中大多數的位點支持,則從大多數自舉樣本得來的基因樹會包含同樣的分支方式,但如果支持某種分支方式的位點數相對較少,則來自許多自舉樣本的基因樹將不包括這種分支方式.

在圖17.1C的基因樹中,在1000個自舉樣本中,支持陰影區所包括的分支順序的樣本不足50%.從實踐上來說,此結果表明,就該蛋白質的這一小段而言,Hu/Ba、Co/Sh和Mo/Ha類群分開的時間非常接近，尚不能解決哪一個分類單元首先分開

的問題。

　　以下是詳細圖解：

參考資料：

　　【1】Genetics Analysis of Genes and Genomes, Daniel L. Hartl,Maryellen Ruvolo

　　【2】西北農林科技大學龐紅俠老師生物信息學課堂PPT

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Bootstrapping 2、 BootStrapping詳解 Bootstrapping算法游程檢驗與卡方檢驗 ADF檢驗 T檢驗與F檢驗的區別_f檢驗和t檢驗的關系卡方檢驗秩檢驗假設檢驗-單樣本檢驗常用的假設檢驗方法(U檢驗、T檢驗、卡方檢驗、F檢驗)