PCA 分析(Principal Component Analysis),即主成分分析,是一種對數據進行簡化分析的技術,這種方法可以有效的找出數據中最“主要”的元素和結構,去除噪音和冗余,將原有的復雜數據降維,揭示隱藏在復雜數據背后的簡單結構。其優點是簡單且無參數限制。通過分析不同樣品OTU(97%相似性)組成可以反映樣品間的差異和距離,PCA 運用方差分解,將多組數據的差異反映在二維坐標圖上,坐標軸取能夠最大反映方差值的兩個特征值。如樣品組成越相似,反映在PCA 圖中的距離越近。不同環境間的樣品可能表現出分散和聚集的分布情況,PCA 結果中對樣品差異性解釋度最高的兩個或三個成分可以用於對假設因素進行驗證。 軟件:使用97%相似度的OTU,PC-ORD或是CANOCO作圖。 參考文獻: Yu Wang, Hua-Fang Sheng, et al. Comparison of the Levels of Bacterial Diversity in Freshwater, Intertidal Wetland, and Marine Sediments by Using Millions of Illumina Tags. Appl. Environ. Microbiol. 2012, 78(23):8264. DOI: 10.1128/AEM.01821-12 例圖: PCA01 PCA02 注:坐標軸百分比解釋:如果PC1 值為50%,則表示x 軸的差異可以解釋全面分析結果的50%。 不同顏色或形狀的點代表不同環境或條件下的樣本組,橫、縱坐標軸的刻度是相對距離,無實際意義。PC1、PC2 分別代表對於兩組樣本微生物組成發生偏移的疑似影響因素,需要結合樣本特征信息歸納總結,例如C 組(黃色)和D 組(藍色)樣品在pc1 軸的方向上分離開來,則可分析為PC1 是導致C 組和D 組分開(可以是兩個地點或酸鹼不同)的主要因素,同時驗證了這個因素有較高的可能性影響了樣品的組成。
heatmap(熱圖)
Heatmap可以用顏色變化來反映二維矩陣或表格中的數據信息,它可以直觀地將數據值的大小以定義的顏色深淺表示出來。常根據需要將數據進行物種或樣品間豐度相似性聚類,將聚類后數據表示在heatmap 圖上,可將高豐度和低豐度的物種分塊聚集,通過顏色梯度及相似程度來反映多個樣品在各分類水平上群落組成的相似性和差異性。結果可有彩虹色和黑紅色兩種選擇。
軟件及算法:R 語言vegan 包,vegdist 和hclust 進行距離計算和聚類分析;距離算法:chao,聚類方法:complete。圖中顏色梯度可自定為兩種或兩種以上顏色漸變色。樣品間和物種間聚類樹枝可自定是否畫出。
參考文獻:
Elie Jami, Adi Israel, et al. Exploring the bovine rumen bacterial community from birth to adulthood. The ISME Journal advance online publication, 21 February 2013; doi:10.1038/ismej.2013.2
例圖:
注釋:
樣品間聚類關系樹: 進化樹表示在選用成圖數據中,樣本與樣本間序列的進化關系(差異關系)。處於同一分支內的樣品序列進化關系相近。
物種/OTU 豐度相似性樹: 豐度相似性樹表示選用成圖的數據中樣品與樣品中的OTU 或序列在豐度上的相似程度。豐度最相近的會分配到同一分支上
PCoA 主坐標分析
Unifrac 分析得到的距離矩陣可用於多種分析方法,可通過多變量統計學方法PCoA 分析,直觀顯示不同環境樣品中微生物進化上的相似性及差異性。
PCoA(principal co-ordinates analysis)是一種研究數據相似性或差異性的可視化方法,通過一系列的特征值和特征向量進行排序后,選擇主要排在前幾位的特征值,PCoA 可以找到距離矩陣中最主要的坐標,結果是數據矩陣的一個旋轉,它沒有改變樣品點之間的相互位置關系,只是改變了坐標系統。通過PCoA 可以觀察個體或群體間的差異。
分析軟件:R 語言PCoA 分析和作PCoA 圖。
unifrac.pcoa.tiff :樣品PCoA 分析圖
參考文獻:
Xiao-Tao Jiang ,Xin Peng, et al.Illumina Sequencing of 16S rRNA Tag Revealed Spatial Variations of Bacterial Communities in a Mangrove Wetland. Microb Ecol (2013) 66:96–104.DOI10.1007/s00248-013-0238-8.
注:PC1 和PC2 是兩個主坐標成分,PC1 表示盡可能最大解釋數據變化的主坐標成分,PC2 為解釋余下的變化度中占比例最大的主坐標成分,PC3 等依次類推。
(un)Weighted UniFrac 分析
(un)Weighted UniFrac 分析
http://blog.sina.com.cn/s/blog_70115ad10102w2xg.html
UniFrac分析利用各樣品序列間的進化信息來比較環境樣品在特定的進化譜系中是否有顯著的微生物群落差異。
UniFrac 可用於beta 多樣性的評估分析,即對樣品兩兩之間進行比較分析,得到樣品間的unifrac距離矩陣。其計算方法為:首先利用來自不同環境樣品的OTU 代表序列構建一個進化樹,Unifrac 度量標准根據構建的進化樹枝的長度計量兩個不同環境樣品之間的差異,差異通過0-1 距離值表示,進化樹上最早分化的樹枝之間的距離為1,即差異最大,來自相同環境的樣品在進化樹中會較大幾率集中在相同的節點下,即它們之間的樹枝長度較短,相似性高。若兩個群落完全相同,那么它們沒有各自獨立的進化過程,UniFrac值為0;若兩個群落在進化樹中完全分開,即它們是完全獨立的兩個進化過程,那么UniFrac值為1。
從UniFrac的定義中,可以看出它只考慮序列是否在群落中出現,而不考慮序列的豐度。若兩個群落包含的物種完全相同,那么不管每個物種的豐度是否有差別或者差別的大小,UniFrac值為0。unweighted unifrac方法,就是在UniFrac的基礎上,將序列的豐度納入考慮,它能夠區分物種豐度的差別。在計算中, unweighted unifrac按照每條枝指向的葉節點中來自兩個群落的比例,給每條枝加權重。因此unweighted unifrac 可以檢測樣品間變化的存在,而weighted unifrac 可以更進一步定量的檢測樣品間不同譜系上發生的變異。
軟件及算法:使用FastTree(version 2.1.3 http://www.microbesonline.org/fasttree/)根據最大似然法( approximately-maximum-likelihood phylogenetic trees ) 構建進化樹,然后利用Fastunifrac[2] (http://unifrac.colorado.edu/)分析得到樣品間距離矩陣。
Table(un)weighted unifrac distance matrix
注:第一行和第一列均為樣品。
參考文獻:
[1] Tanya Yatsunenko, Federico, et al. Human gut microbiome viewed across age and geography. Nature486, 222–227 (14 June 2012) doi:10.1038.nature11053.
[2] Micah Hamady, Catherine Lozupone and Rob Knight. Fast UniFrac:facilitatinghigh-throughput phylogenetic analyses of microbial communities including analysis of pyrosequencing and PhyloChip data.The ISME Journal (2010) 4, 17–27; doi:10.1038/ismej.2009.97
基於UniFrac 的Pcoa 分析
Unifrac 分析得到的距離矩陣可用於多種分析方法,可通過多變量統計學方法PCoA 分析,直觀顯示不同環境樣品中微生物進化上的相似性及差異性。
PCoA(principal co-ordinates analysis)是一種研究數據相似性或差異性的可視化方法,通過一系列的特征值和特征向量進行排序后,選擇主要排在前幾位的特征值,PCoA 可以找到距離矩陣中最主要的坐標,結果是數據矩陣的一個旋轉,它沒有改變樣品點之間的相互位置關系,只是改變了坐標系統。通過PCoA 可以觀察個體或群體間的差異。
分析軟件:R 語言PCoA 分析和作PCoA 圖。
unifrac.pcoa.tiff :樣品PCoA 分析圖
Fig (un)weighted unifrac PCoA analysis
參考文獻:
Xiao-Tao Jiang ,Xin Peng, et al.Illumina Sequencing of 16S rRNA Tag Revealed Spatial Variations of Bacterial Communities in a Mangrove Wetland. Microb Ecol (2013) 66:96–104.DOI10.1007/s00248-013-0238-8.
注:PC1 和PC2 是兩個主坐標成分,PC1 表示盡可能最大解釋數據變化的主坐標成分,PC2 為解釋余下的變化度中占比例最大的主坐標成分,PC3 等依次類推。
基於UniFrac 的多樣品相似度樹分析
Unifrac 分析得到的距離矩陣可用於多種分析方法,通過層次聚類(Hierarchical cluatering)[1]中的非加權組平均法UPGMA 構建進化樹等圖形可視化處理,可以直觀顯示不同環境樣品中微生物進化上的相似性及差異性。
UPGMA(Unweighted pair group method with arithmetic mean)假設在進化過程中所有核苷酸/氨基酸都有相同的變異率,即存在着一個分子鍾。通過樹枝的距離和聚類的遠近可以觀察樣品間的進化距離。
分析軟件: R 語言vegan 包UPGMA 分析和作進化樹。
(un) weighted unifrac tree analysis
(un) weighted unifrac tree analysis
注:樹枝顏色為預先定義的不同分組標注。
參考文獻:
[1] Magali Noval Rivas, PhD, Oliver T. Burton, et al. A microbita signature associated with experimental food allergy promotes allergic senitization and anaphylaxis. The Journal of Allergy and Clinical Immunology.Volume 131, Issue 1 , Pages 201-212, January 2013.