群體結構圖形三劍客——PCA圖


重測序便宜了,群體的測序和分析也多了起來。群體結構分析,是重測序最常見的分析內容。群體結構分析應用十分廣泛,首先其本身是群體進化關系分析里面最基礎的分析內容,其次在進行GWAS分析的時候,本身也需要使用PCA或structure分析的結果作為協變量,來校正群體結構對關聯分析帶來的假陽性。

我們之所以冠以 “群體結構三劍客”的稱呼,那是因為這三張圖(或者說三項分析)幾乎總是在一篇文章中一起出現。雖然這三張圖常常一起出現,但它們能夠解釋的生物學問題,以及繪制的方法都是有所不同的,所以我們還是一一來解釋。

2.1 PCA圖(主成分分析)
顏值:☆ ☆
實用性:☆ ☆ ☆ ☆

PCA圖形的解讀

PCA分析是一項朴實無華的分析內容,但它應用十分廣泛,的確能夠幫助我們解決某些生物問題。說起朴實無華,是因為它的結果不花哨且及其容易看懂,僅僅是一張散點圖而已。

比如,下圖來自熊貓重測序的文章[1],作者使用主成分1(principal component1)和主成分2作為X軸和Y軸繪制散點圖,每個點代表1個樣本。在這樣的PCA圖中,如果兩個樣本距離越遠,則說明兩個樣本遺傳背景差異越大。理想情況下,遺傳背景相似的個體會在圖中聚類在一起。

例如,這張圖中涉及的熊貓個體分別來自3個不同的熊貓自然保護區。PCA分析的結果也將這些個體分為了3個亞群,和熊貓來源的地域信息完全一致。

 
圖1 PCA分析將來自三個區的大熊貓准確區分開

但是如果你不僅僅滿足於把圖形基本信息讀懂的話,你還是需要對PCA這一方法有初步的了解。PCA是一種線性代數中的數據處理方法,而這個方法的數學過程比較抽象,在這里有限的篇幅里不便展開討論,感興趣的同學可以自己百度查詢。PCA分析應用的情境是:在某些情況下,我們數據實在過於復雜。

例如:對一個群體進行重測序,得到的SNP位點數是百萬級別的。如果我們直接使用百萬級別的SNP信息作為指標對個體進行區分,就會顯得信息過於龐大而無法把握重點。PCA分析過程就是從這百萬級別的信息中提取關鍵的信息,以便我們使用更少的變量(指標)就可以對樣本進行有效區分。這些被提取出的信息,按照其效應從大到小排列,我們稱之為主成分1(principal component1)、主成分2、主成分3… …

在實際文章中,我們不僅僅只使用PC1和PC2來對樣本群體進行區分。從數學上理解,PCA分析的過程就是從大量數據指標中提取關鍵信息的過程。但PC1或PC2對總體信息的解釋程度總是有限的。我們將之稱為PCn對總體方差解釋的百分比。一般重測序的PCA分析結果中,PC1對總體信息的解釋比例在3~10%之間。所以,我們也需要關注一下其他主成分的分類效果。

例如在家蠶重測序文章中,分別使用主成分1和2繪圖(左圖)以及主成分3與主成分4繪圖(右圖)。兩個聚類結果呈現了不同的意義。在PC1和PC2的聚類圖中,將野生蠶和家蠶區分開了兩個群體。而在PC3和PC4的聚類中,則分離出了兩個來自江南地區高產絲量的品種。
所以,從生物學層面理解,PCA分析的過程就是信息濃縮的過程,會從原始的各個SNP位點信息中提取相似的信息,濃縮為新的變量PC1、PC2、PC3…. 輸出。所以不同的主成分可能會(記住,僅僅是可能)對應不同的生物學意義,產生不同的聚類分類效果。

 
圖2蠶群體利用不同主成分的聚類結果比較

在其他實際案例中的使用

PCA分析只是一種非常單純的數學方法,具體有什么樣的生物學意義還是需要具體問題具體分析。PCA分析在實際案例中應用主要包括:

1.檢測離群樣本

例如,在上圖(右)中,兩個高產的品種就屬於離群樣本。如果你材料已知都是來源同一品種的個體,這種離群樣本可能就意味着在采樣或測序過程中,出現了樣本混淆。如果這些材料后續用於GWAS分析,個別樣本出現離群則考慮要把這些離群樣本剔除。當然,如果大量樣本離群或出現群體分層(例如,上圖的左圖,明顯分層為兩個亞群體),則需要將PCA或structure分析的結果作為后續關聯分析的協變量,校正它們對關聯分析的影響。

2.推斷亞群間的進化關系

例如下圖這篇葡萄群體研究的文章[3],研究的葡萄品種來源三個地域。綠色的西部葡萄和紅色的東部葡萄區分比較明顯,而藍色的中部葡萄夾雜在東、西兩個亞群間,和兩個亞群有大量重疊。作者從中推斷,東、西兩個地域的葡萄都有傳播到中部地區,並伴隨大量雜交,導致中部地區的品種系譜比較混雜,並沒有形成自己獨立的亞群。其實本人作為小白鼠也做過基因型檢測,PCA結果最后被歸類到江南地區人群。當然我對結果一點也不意外,因為我是如假包換的大胡建人。

<ignore_js_op> 
圖3 葡萄亞群體的基因混雜現象

PCA分析和繪制的方法

PCA分析只是一種統計方法,我們可以使用一些群體統計軟件計算出群體中PC1~pCn的數值,然后繪制散點圖就可以了(繪制散點圖其實利用excel就可以完成。當然,使用R語言繪圖的話,會更加美觀一些)。

在群體分析軟件上,我們推薦GCTA軟件中的PCA模塊來完成分析(http://cnsgenomics.com/software/gcta/pca.html)。這個軟件有window版本,但和本地blast類似(我們之前分享過)只能在Dos界面下的命令行模式運行。當然還包括比較老牌的PCA分析軟件EIGENSOFT(http://www.hsph.harvard.edu/alkes-price/software/),但這個軟件只有linux版本。總之,在生物信息領域,軟件大都不太友好,這也是這個行業的現狀。

當然,PCA分析不僅僅用在重測序的領域,在RNA-seq、16s meta rDNA 測序也被大量使用,只是將上文提到的SNP信息替換為表達豐度了而已。如果你對RNA-seq,16s meta 測序的PCA分析感到頭疼,其實可以直接使用我們基迪奧新開發的免費在線分析雲工具(www.omicshare.com/tools/)。

被各種生物信息軟件虐過的生物狗們一起團結起來,英特納雄耐爾就一定要實現… … 感覺有點跑題,重新喊一次口號:歡迎被各種生物信息軟件虐過的生物狗們多給我們反饋修改意見,OS tools 的用戶友好程度一定會持續提高的。 

參考文獻:
【1】Zhao S, et al. (2013)Whole-genome sequencing of giant pandas provides insights into demographichistory and local adaptation. Nature genetics45(1):67-71.
【2】Xia Q, Guo Y, Zhang Z, et al.Complete resequencing of 40 genomes reveals domestication events and genes insilkworm (Bombyx)[J]. Science, 2009, 326(5951): 433-436.
【3】Myles S, Boyko A R, Owens C L, et al. Genetic structure and domesticationhistory of the grape[J]. Proceedings of the National Academy of Sciences, 2011,108(9): 3530-3535.

轉自:

群體結構圖形三劍客——PCA圖
http://www.omicshare.com/forum/thread-816-1-180.html
(出處: OmicShare Forum)

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM