散點圖
數據點在直角坐標系平面上的分布圖。在宏基因組領域,散點圖常用於展示樣品組間的Beta多樣性,常用的分析方法有主成分分析(PCA),主坐標軸分析(PCoA/MDS)和限制條件的主坐標軸分析(CPCoA/CCA/RDA)。
Beta多樣性
Beat多樣性是生態學概念,專指不同組或生態位間物種組成的差異。
分析方法
在讀文章中經常可以看到PCA分析、PCoA分析,NMDS分析,CCA分析,RDA分析。它們在本質上是
排序(ordination)分析。排序的過程就是在一個可視化的低維空間(通常是二維)重新排列這些樣品,使得樣方之間的距離最大程度地反映出平面散點圖內樣品間的關系信息。常用的排序方法如下:
1、只使用物種組成數據的排序稱作非限制性排序(unconstrained ordination)
==即無限制條件,只找所有樣品間的最大差異的投影平面==,主要方法如下:
1. 主成分分析(principal components analysis,PCA)是一種常用的數據間差異分析方法。PCA通過線性變換將原始數據變換為一組各維度線性無關的表示,可用於提取數據的主要特征向量,常用於高維數據的降維。原理推薦閱讀PCA的數學原理。
2. 對應分析(correspondence analysis, CA)
3. 去趨勢對應分析(Detrended correspondence analysis, DCA)
4. 主坐標分析(principal coordinate analysis, PCoA)
5. 非度量多維尺度分析(non-metric multi-dimensional scaling, NMDS)
在非限制性排序中,分析種類很多,但原理相近。16S和宏基因組數據分析通常用到的是PCA分析和PCoA。原理有時間可以細讀,但至少知道是用坐標間距離來反應樣品間差異大小即可。
PCA和PCoA分析的區別:PCA分析是基於原始的物種組成矩陣所做的排序分析,而PCoA分析則是基於由物種組成計算得到的距離矩陣得出的。
2、同時使用物種和相關環境因子組成數據的排序叫作限制性排序(constrained ordination)
==即尋找某一條件下,可最大限制解釋這一條件的投影平面==。條件可以為連續(溫度、濕度、pH值、各種土壤理化性質等)或非連續的變量(如人為分組、基因型、地理位置、取樣時間、實驗批次等)。常分析方法有:
1. 冗余分析(redundancy analysis,RDA)
2. 典范對應分析(canonical correspondence analysis, CCA)
==此類方法可以計算某一條件下,各組間是否存在顯著差異,並且可以計算出該條件下平面展示的差異占樣品間總體差異的比例==
RDA或CCA的區別:RDA是基於線性模型,CCA是基於單峰模型。一般我們會選擇CCA來做直接梯度分析。但是如果CCA排序的效果不太好,就可以考慮是不是用RDA分析。RDA或CCA選擇原則:先用species-sample資料做RDA分析,看分析結果中Lengths of gradient 的第一軸的大小,如果大於4.0,就應該選CCA,如果3.0-4.0之間,選RDA和CCA均可,如果小於3.0, RDA的結果要好於CCA。
距離計算方法
樣品兩兩間的距離計算方法也有多種方法,大家都應該聽過Euclidean(歐幾里德)吧,即有非常有名的歐氏距離(Euclidean distance)。在生物學研究中,主要分為兩大類,一種是
物種距離(如常用Jaccard,Bray-Curtis);另一種是
基於進化的距離(Unifrac),基於進化的距離還包含權重(Weighted)和非權重(Unweight)兩種。
在選擇上,我習慣用Bray-Curtis距離,是因為這種方法在我研究的方面有比較好的結果。習慣上我是每種距離都做分析,那種能更好的解釋科學問題就用那種。
看圖實戰(Result)
示例1. 非限制條件的PCoA
Edwards, J., et al. (2015). PNAS Fig. 1C
這篇文章分析了水稻根不同區域的細菌組成,16S分析文章較系統的作品,兩年被引用147次,推薦閱讀。

圖1.C 主坐標軸分析(PCoA)展示樣品間差異(Beta diversity),距離計算方法采用Weight Unifrac。
1. 圖中元素解釋
- X軸標簽PCo 1 (46.3%)代表能最大區分所有樣品的第一主坐標軸,可以解釋樣品中所有差異的46.3%;
- Y軸標簽PCo 2 (11.5%)代表能最大區分所有樣品的第二主坐標軸,可以解釋樣品中所有差異的11.5%;僅這兩軸形成的第一個平面,即展示了樣品間一半以上的差異;
- 下部形狀圖例(實心圓Arbuckle、三角Davis、正方形Sacaramen)對應的是地名,用以區分圖中不同地區的材料;
- 左上角顏色圖例,用以區分不同取材部位(compartment);
2. 圖表結果:圖中展示在最大解釋率的第一坐標軸,不同顏色表示的取樣部分可以很好的區分開,即樣品間的差異主要是由於樣品的來源不同決定的;同時不同形狀代表的不同地區可以在第二坐標軸上可以較好的區分,表明不同地理位置對微生物組有影響,並且影響遠小於不同取樣部位;
3. 圖觀察規律或結論:植物根部特定的區域(不同取樣來源)存在微生物組的差別,而且是最主要的差別,可很好的由第一坐標軸解釋;不同地區土壤環境因素下根際微生物組也是明顯不同的,是整體實驗中第二大差異貢獻原因,可以很好的在第二坐軸上區分開。
4. 經驗和技巧:通常我們的實驗設計和想要找的差異,根據預期的差異大小很可能與主坐標軸分開規律相一致,是因為我們的實驗設計合理且有針對性(Common sense);顏色和形狀的標注建議:因為人類對不同顏色的散點分布比較容易區分,故將最重要的發現用顏色標示,便於觀察,可將第二關注的因素按形狀標注;對於實驗組大於7組時,顏色太多相近很難區分時,可以每組樣品均標為不同顏色和形狀來進一步對組進行區分。
示例2. 以取材部位和基因型為條件的主坐標軸分析(CPCoA/CCA)
這篇文章分析了百脈根根瘤的微生物組成,同時在根瘤缺失突變體條件下發現根和根際微生物均有較大差異的變化

圖2. 散點圖展示限制性主坐標軸分析(Constrained PCoA/ CCA)取材部位和基因型間的差異。
1. (A) 采用CCA方法結合bray-curtis距離,分析以取樣部分(compartment)條件下可顯示各組最大差異投影平面;圖頂部19.97% of variance (P<0.001)表示當前所展示的平面坐標系,可解釋所有樣品間總差異的19.97%的(另一種我的解讀是當前條件對樣品間總差異的貢獻率為19.97%,即導致差異所占的權重),並且各組間存在顯著差異(P<0.001);
2. (B) 以基因型為條件分析最大解釋基因型組間差異的空間平面,可解釋9.82%的變異,並且有顯著差異,其中作者按形狀標出了各基因型;同時作者還按compartment進行着色,在這一平面上,compartment仍能很好的分開。
3. 圖表結果:Compartment可解釋19.97%差異,且區分明顯;突變體與WT(gifu)可以區分,區分不大(占9.82%變異中的17.75%的縱軸上可區分);各突變體間很難區分,完全混在一起;在基因型最大解釋平面上,compartment仍能非常好的在第一軸上區分。
4. 圖表結論或規律:Compartment對微生物組成影響較大,基因型其次;不同根瘤突變體差異極小。
5. 圖片優點:配色選擇各組區分較好,不同圖配色方案一致;圖片使用矢量圖線條和文字清楚(上面介紹水稻的文章全是位圖,經過PDF的壓縮,文字非常模糊)。個人建議,只要不是照片,畫的圖都用矢量,無極縮放不失真,一般體積還小,而且方便編輯修改。