PCA 分析(Principal Component Analysis),即主成分分析,是一种对数据进行简化分析的技术,这种方法可以有效的找出数据中最“主要”的元素和结构,去除噪音和冗余,将原有的复杂数据降维,揭示隐藏在复杂数据背后的简单结构。其优点是简单且无参数限制。通过分析不同样品OTU(97%相似性)组成可以反映样品间的差异和距离,PCA 运用方差分解,将多组数据的差异反映在二维坐标图上,坐标轴取能够最大反映方差值的两个特征值。如样品组成越相似,反映在PCA 图中的距离越近。不同环境间的样品可能表现出分散和聚集的分布情况,PCA 结果中对样品差异性解释度最高的两个或三个成分可以用于对假设因素进行验证。 软件:使用97%相似度的OTU,PC-ORD或是CANOCO作图。 参考文献: Yu Wang, Hua-Fang Sheng, et al. Comparison of the Levels of Bacterial Diversity in Freshwater, Intertidal Wetland, and Marine Sediments by Using Millions of Illumina Tags. Appl. Environ. Microbiol. 2012, 78(23):8264. DOI: 10.1128/AEM.01821-12 例图: PCA01 PCA02 注:坐标轴百分比解释:如果PC1 值为50%,则表示x 轴的差异可以解释全面分析结果的50%。 不同颜色或形状的点代表不同环境或条件下的样本组,横、纵坐标轴的刻度是相对距离,无实际意义。PC1、PC2 分别代表对于两组样本微生物组成发生偏移的疑似影响因素,需要结合样本特征信息归纳总结,例如C 组(黄色)和D 组(蓝色)样品在pc1 轴的方向上分离开来,则可分析为PC1 是导致C 组和D 组分开(可以是两个地点或酸碱不同)的主要因素,同时验证了这个因素有较高的可能性影响了样品的组成。
heatmap(热图)
Heatmap可以用颜色变化来反映二维矩阵或表格中的数据信息,它可以直观地将数据值的大小以定义的颜色深浅表示出来。常根据需要将数据进行物种或样品间丰度相似性聚类,将聚类后数据表示在heatmap 图上,可将高丰度和低丰度的物种分块聚集,通过颜色梯度及相似程度来反映多个样品在各分类水平上群落组成的相似性和差异性。结果可有彩虹色和黑红色两种选择。
软件及算法:R 语言vegan 包,vegdist 和hclust 进行距离计算和聚类分析;距离算法:chao,聚类方法:complete。图中颜色梯度可自定为两种或两种以上颜色渐变色。样品间和物种间聚类树枝可自定是否画出。
参考文献:
Elie Jami, Adi Israel, et al. Exploring the bovine rumen bacterial community from birth to adulthood. The ISME Journal advance online publication, 21 February 2013; doi:10.1038/ismej.2013.2
例图:
注释:
样品间聚类关系树: 进化树表示在选用成图数据中,样本与样本间序列的进化关系(差异关系)。处于同一分支内的样品序列进化关系相近。
物种/OTU 丰度相似性树: 丰度相似性树表示选用成图的数据中样品与样品中的OTU 或序列在丰度上的相似程度。丰度最相近的会分配到同一分支上
PCoA 主坐标分析
Unifrac 分析得到的距离矩阵可用于多种分析方法,可通过多变量统计学方法PCoA 分析,直观显示不同环境样品中微生物进化上的相似性及差异性。
PCoA(principal co-ordinates analysis)是一种研究数据相似性或差异性的可视化方法,通过一系列的特征值和特征向量进行排序后,选择主要排在前几位的特征值,PCoA 可以找到距离矩阵中最主要的坐标,结果是数据矩阵的一个旋转,它没有改变样品点之间的相互位置关系,只是改变了坐标系统。通过PCoA 可以观察个体或群体间的差异。
分析软件:R 语言PCoA 分析和作PCoA 图。
unifrac.pcoa.tiff :样品PCoA 分析图
参考文献:
Xiao-Tao Jiang ,Xin Peng, et al.Illumina Sequencing of 16S rRNA Tag Revealed Spatial Variations of Bacterial Communities in a Mangrove Wetland. Microb Ecol (2013) 66:96–104.DOI10.1007/s00248-013-0238-8.
注:PC1 和PC2 是两个主坐标成分,PC1 表示尽可能最大解释数据变化的主坐标成分,PC2 为解释余下的变化度中占比例最大的主坐标成分,PC3 等依次类推。
(un)Weighted UniFrac 分析
(un)Weighted UniFrac 分析
http://blog.sina.com.cn/s/blog_70115ad10102w2xg.html
UniFrac分析利用各样品序列间的进化信息来比较环境样品在特定的进化谱系中是否有显著的微生物群落差异。
UniFrac 可用于beta 多样性的评估分析,即对样品两两之间进行比较分析,得到样品间的unifrac距离矩阵。其计算方法为:首先利用来自不同环境样品的OTU 代表序列构建一个进化树,Unifrac 度量标准根据构建的进化树枝的长度计量两个不同环境样品之间的差异,差异通过0-1 距离值表示,进化树上最早分化的树枝之间的距离为1,即差异最大,来自相同环境的样品在进化树中会较大几率集中在相同的节点下,即它们之间的树枝长度较短,相似性高。若两个群落完全相同,那么它们没有各自独立的进化过程,UniFrac值为0;若两个群落在进化树中完全分开,即它们是完全独立的两个进化过程,那么UniFrac值为1。
从UniFrac的定义中,可以看出它只考虑序列是否在群落中出现,而不考虑序列的丰度。若两个群落包含的物种完全相同,那么不管每个物种的丰度是否有差别或者差别的大小,UniFrac值为0。unweighted unifrac方法,就是在UniFrac的基础上,将序列的丰度纳入考虑,它能够区分物种丰度的差别。在计算中, unweighted unifrac按照每条枝指向的叶节点中来自两个群落的比例,给每条枝加权重。因此unweighted unifrac 可以检测样品间变化的存在,而weighted unifrac 可以更进一步定量的检测样品间不同谱系上发生的变异。
软件及算法:使用FastTree(version 2.1.3 http://www.microbesonline.org/fasttree/)根据最大似然法( approximately-maximum-likelihood phylogenetic trees ) 构建进化树,然后利用Fastunifrac[2] (http://unifrac.colorado.edu/)分析得到样品间距离矩阵。
Table(un)weighted unifrac distance matrix
注:第一行和第一列均为样品。
参考文献:
[1] Tanya Yatsunenko, Federico, et al. Human gut microbiome viewed across age and geography. Nature486, 222–227 (14 June 2012) doi:10.1038.nature11053.
[2] Micah Hamady, Catherine Lozupone and Rob Knight. Fast UniFrac:facilitatinghigh-throughput phylogenetic analyses of microbial communities including analysis of pyrosequencing and PhyloChip data.The ISME Journal (2010) 4, 17–27; doi:10.1038/ismej.2009.97
基于UniFrac 的Pcoa 分析
Unifrac 分析得到的距离矩阵可用于多种分析方法,可通过多变量统计学方法PCoA 分析,直观显示不同环境样品中微生物进化上的相似性及差异性。
PCoA(principal co-ordinates analysis)是一种研究数据相似性或差异性的可视化方法,通过一系列的特征值和特征向量进行排序后,选择主要排在前几位的特征值,PCoA 可以找到距离矩阵中最主要的坐标,结果是数据矩阵的一个旋转,它没有改变样品点之间的相互位置关系,只是改变了坐标系统。通过PCoA 可以观察个体或群体间的差异。
分析软件:R 语言PCoA 分析和作PCoA 图。
unifrac.pcoa.tiff :样品PCoA 分析图
Fig (un)weighted unifrac PCoA analysis
参考文献:
Xiao-Tao Jiang ,Xin Peng, et al.Illumina Sequencing of 16S rRNA Tag Revealed Spatial Variations of Bacterial Communities in a Mangrove Wetland. Microb Ecol (2013) 66:96–104.DOI10.1007/s00248-013-0238-8.
注:PC1 和PC2 是两个主坐标成分,PC1 表示尽可能最大解释数据变化的主坐标成分,PC2 为解释余下的变化度中占比例最大的主坐标成分,PC3 等依次类推。
基于UniFrac 的多样品相似度树分析
Unifrac 分析得到的距离矩阵可用于多种分析方法,通过层次聚类(Hierarchical cluatering)[1]中的非加权组平均法UPGMA 构建进化树等图形可视化处理,可以直观显示不同环境样品中微生物进化上的相似性及差异性。
UPGMA(Unweighted pair group method with arithmetic mean)假设在进化过程中所有核苷酸/氨基酸都有相同的变异率,即存在着一个分子钟。通过树枝的距离和聚类的远近可以观察样品间的进化距离。
分析软件: R 语言vegan 包UPGMA 分析和作进化树。
(un) weighted unifrac tree analysis
(un) weighted unifrac tree analysis
注:树枝颜色为预先定义的不同分组标注。
参考文献:
[1] Magali Noval Rivas, PhD, Oliver T. Burton, et al. A microbita signature associated with experimental food allergy promotes allergic senitization and anaphylaxis. The Journal of Allergy and Clinical Immunology.Volume 131, Issue 1 , Pages 201-212, January 2013.