多樣性計算的各種距離


Beta多樣性和生態相似性

 

Beta多樣性(β多樣性,Beta diversity),即在一個梯度上從一個生境到另一個生境所發生的種的多樣性變化的速率和范圍,它是研究群落之間的種多度關系。Beta多樣性本身代表了一個復雜的問題,可以被視為物種更替(物種沿空間、時間或環境梯度的定向過程)或物種組成的差異(數據集內物種組成的異質性的非定向過程)。

下圖展示了Alpha多樣性、Beta多樣性和Gamma多樣性的關系(點擊查看原文獻)。圖示三個群落,Alpha多樣性反映了各群落內物種的豐富度、均勻度等,Beta多樣性反映了群落間的差異水平,Gamma多樣性可視為區域內Alpha多樣性和Beta多樣性的結合。

1.png

在群落的Beta多樣性分析中,通常涉及到非約束排序(如PCA、PCoA等)、層次聚類(如UPGMA等)等具體的分析。關於這些具體的分析方法,本文不作闡述。無論哪種形式的Beta多樣性分析,均以群落相似(或相異)程度為基礎。

2.png

 

生態相似性(Ecological resemblance)以計算樣方之間的群落組成相似程度或距離(相異程度)為基礎,是處理多元生態數據的基本方法之一。在群落數據的分析中,常用其反映Beta多樣性。如在物種數據的分析中,對於兩個群落,若它們共享相同的物種,並且所有物種的豐度也一致,那么這兩個群落就具有最高的相似程度(或最低距離0)。關於“相似性”和“距離”的概念詳見下文。隨着群落物種組成差異(種類和豐度)的增加,相似性逐漸降低,距離逐漸遞增。

生態學數據分析中的很多統計方法都以樣方之間的相似性或距離為基礎,例如上述提到的Beta多樣性分析中的聚類、排序等,即使對於PCA和CA,實質上在計算時也分別基於歐幾里得(euclidean)和卡方(chi-square)距離考慮的。

3.png

 


雙零問題


在介紹“相似性”或“距離”之前,首先需要明確一個概念,“雙零”。“雙零”是指在計算群落相似性(或距離)時,所比較的兩個樣方中缺失某些物種的情況,這是很常見的現象。對於某些特定物種來講,它們在兩個樣方中同時缺失的可能原因:

(1)兩個樣方位於這些物種生態位之外,但無法確定兩個樣方是否均處於生態梯度的同一側(即它們是生態相似的,如下圖所示的A、B兩個樣方),或者它們分別處於生態梯度的兩側(如下圖所示的A、C兩個樣方,它們實際上存在非常大的差異)。

(2)樣方位於物種生態位內(如下圖所示的D、E兩個樣方),但是未被觀測到。未被觀測到的原因,可能是該物種恰好沒有在我們所調查的區域出現(擴散限制),也可能僅僅由於采樣誤差而未被收集到,或者由於豐度太低而被忽視等。

在這兩種情況下,雙零代表了信息的缺失,限制了我們對生態群落的比較和深入研究。

4.png

這里有兩個關鍵點:

(1)在大多數情況下,一個物種在兩個樣方內同時缺失,並不能成為這兩個樣方具有組成相似的依據,因為引起缺失的原因可能完全不同。

(2)在物種矩陣內,不可解釋的雙零的數量取決於物種的數量,因此也會隨着檢測到的稀有種數量的增加而顯著增加。

因此,物種存在的信息比物種缺失的信息有更明確的意義。

 


相似性和距離


直觀地理解,若兩個對象在各屬性上越近似,那么它們的相似性就越高。對於群落數據,這些屬性一般就是物種組成,或者環境屬性等。通常使用物種組成數據,依據相似性指數(similarity indices)判斷群落相似性,范圍由0(兩個群落不共享任何物種)到1(兩個群落的物種類型和豐度完全一致)。

距離指數(distance indices)或稱距離測度(distance measures),與相似性指數相反,距離數值越大表明群落間差異越大。存在多種距離類型,例如歐幾里得(Euclidean)距離、Bray-Curtis距離、UniFrac距離等。對於物種組成數據,距離指數的最小值為0(兩個群落的物種類型和豐度完全一致),最大取值取決於距離類型和數據本身。

在兩個比較樣方相同(最大相似)的情況下,相似性指數返回最高值;類似地,對於不共享任何物種的兩個樣方,距離指數最大。

 

相似性和距離的相互轉換


所有相似性指數均可以轉換為距離指數,轉化公式大致就是“距離指數 = 1 – 相似性指數”的關系,因此不必多說。

但反過來,並非所有距離指數都可以轉換為相似性指數:

(1)可以轉化為相似性指數的距離指數,例如定量數據的相異百分率(也稱為Bray-Curtis距離)等。二者相互轉換的公式通常表示為D = 1-S或S = 1-D,其中S是相似性指數,D為距離指數。

(2)無法轉化為相似性指數的距離指數,例如歐幾里得距離、卡方距離。

5.png

 

對稱指數和非對稱指數


無論距離指數或相似性指數,可歸為對稱指數和非對稱指數兩種,它們在對於如何處理雙零問題方面存在差異。對稱指數(symmetrical indices)以雙重存在相同的方式處理雙零問題,即作為考慮樣本相似的原因。這通常對物種組成數據沒有意義;非對稱指數(asymmetrical indices)忽略雙零,在評估相似性時僅關注存在的部分,這些指數通常對物種組成數據更有意義。

下圖以一示例展示兩種類型的指數在處理雙零現象時的區別。由環境樣品1至3,環境中的濕度依次降低。對於樣品1和3,未觀測到包含相同物種的存在,特別是對於“mesic species”這個物種來講,產生“雙零”。缺失物種的事實並沒有說明兩個樣本之間的生態相似性或差異,因此最好忽略它。在對稱指數的情況下,樣品1和樣品3中不存在的物種“mesic species”(0-0)會被考慮在內,這將增加樣品1和3的相似性(或着說降低差異); 而在非對稱指數中,樣品1和樣品3中均不存在的物種“mesic species”將被忽略,只考慮(至少有一個)存在情形(1-1,1-0,0-1)。相較之下,非對稱指數的處理方式更為合理。

6.png

特別是在實際的分析中,由於涉及的群落數據很多,會存在大量的雙零現象。因此,在群落物種數據的分析中,通常不建議使用對稱指數(即那些認為雙零相關的指數),因為它們可能會帶來較大的誤差(如上所述,在群落物種組成數據時無法很好地處理雙零問題)。對於非對稱指數(即忽略雙零的那些),根據它們使用的數據,可分為兩種類型:定性(二元)指數,應用於存在缺失數據;以及應用於原始(或轉化)物種豐度的定量指數。當存在多樣方時,其計算結果常用於反映群落Beta多樣性。

 

盡管如此,在生態學數據分析中,對稱指數並非顯得“毫無用途”,實際上,它們在處理環境變量數據(變量屬性為“環境”,而非“物種”)時可能是適用的。例如,對於包含化學測量的多變量數據。假設我們采集了多個環境中的土壤樣本,意在比較土壤的受污染情況,在通過測量多種化學指標后,發現在其中兩個樣品中均未檢測到重金屬Hg存在(Hg在其他樣本中是存在的,因此Hg在這兩個樣本中視為“雙零”),此時Hg的缺失是需要如實考慮在內的,即“雙零”反映了這兩個樣品之間的相似性。

 

相似性或距離的計算


相似性或距離的衡量標准有很多種,Legendre和Legendre(1998)列出大約30種方法,並對生態相似性作了更詳細的介紹,有興趣可自行參閱Legendre和Legendre(1998)“Numerical Ecology”第七章“Ecological resemblance”的內容。

下文簡介其中幾種常見的相似性指數及距離指數。

 

定性(二元)對稱相似性指數、定量對稱相似性指數

這種類型的相似性指數不適用於生態學數據分析,忽略。

 

定性(二元)非對稱相似性指數

常見以下幾種類型。

Jaccard相似性指數(Jaccard similarity index)將兩個樣方共享的物種數量(a)除以兩個樣方中出現的所有物種的總和(a + b + c,其中b和c是僅在第一個和第二個樣方中出現的物種數量)。計算公式如下:

image.png

轉換為Jaccard相異度(Jaccard dissimilarity):

image.png

 

與此相比,Sørensen相似性指數(Sørensen similarity index)認為兩個樣方之間共享的物種數量更重要,因此它計算兩次。計算公式如下:

image.png

轉換為Sørensen相異度(Sørensen dissimilarity):

image.png

 

在兩個樣方的物種豐富度指數差異很大的情況下(即一個樣方比另一個樣方具有更多的物種),Simpson相似性指數(Simpson similarity index)更為適用。在這種情形下,如果使用Jaccard或Sørensen相似性指數,它們的值通常非常低,因為會出現分母過大的情況(具有很多的非共享物種,特別是高物種豐富度的樣方所貢獻)導致指數的總值過低。Simpson相似性指數通過從分數b和c中僅取較小的數據來消除這個問題。計算公式如下:

image.png

轉換為Simpson相異度(Simpson dissimilarity):

image.png

注意:這里的Simpson相似性指數(或Simpson相異度),不同於Alpha多樣性指數中的Simpson指數。

 

定量非對稱相似性指數

例如相似百分率(Percentage similarity),由“1 - 相異百分率”獲得(即直接通過“1 – 距離指數 = 相似性指數”轉化),相異百分率又稱Bray-curtis距離,詳見下文“Bray-curtis距離”。

 

歐幾里得距離(Euclidean distance

歐幾里得距離是多變量分析中經常使用的一種距離,如在線性排序方法PCA、RDA,以及某些層次聚類算法中。歐幾里得距離沒有上限,最大值取決於數據。

歐幾里得距離計算公式如下:

image.png

其中,y1j和y2j分別是對象1和2中元素j的數值。若是群落物種數據,那么y1j和y2j即分別是樣方1和2中物種j的豐度。p是物種數(樣方-物種矩陣中的物種數)。如下展示了僅包含兩個物種的兩個群落之間的歐幾里得距離的計算過程。

7.png

 

毫無疑問,作為最常規的距離之一,現實中歐幾里得距離應用十分廣泛。在生態學分析中,可以使用它來處理地理因素、環境指標、生物性狀等數據。

但是在物種數據的分析中,歐幾里得距離卻表現得不很理想。主要原因在於它是一個對稱的指數,即它將“雙零”現象視作相同存在的方式處理,因此會縮小兩個共享很少物種的群落之間的距離(實際上,它們差異很大)。可參考上文“對稱指數和非對稱指數”所述。並且,他還有對“物種豐度的差異”比對“物種是否存在”更加敏感的這么一個特點,也會影響我們對群落相似程度的判斷。本文的末尾,詳細展示了一例在物種數據處理中使用歐幾里得距離可能會帶來的問題。

如果仍要將歐幾里得距離應用在物種數據的分析中,常見的解決方法是首先對原始物種數據執行預轉化(常見的如弦轉化、Hellinger轉化等),然后再使用轉化后的數據計算歐幾里得距離(即對應於下文提到的弦距離、Hellinger距離,事實上,它們仍然屬於歐氏距離)。盡管弦距離、Hellinger距離等然是對稱指數的范疇,但是相較於使用原始物種豐度數據所得的歐幾里得距離,弦距離、Hellinger距離的優勢體現在存在距離的“上限”,降低了歐幾里得距離對“物種豐度”的敏感性,有效減少了“雙零”問題導致的誤差。

更多情況下,我們在處理物種數據時,會盡可能避開使用歐幾里得距離這類的對稱指數。例如,通常我們選擇使用非對稱的Bray-curtis距離等。除非特定需要,不得不使用歐氏距離的情況下,可再考慮先轉化數據再求歐幾里得距離的方法。

 

距離(Chord distance

弦距離是根據范數標准化的物種數據計算的歐幾里得距離(首先對原始物種豐度數據執行范數標准化,又稱為弦轉化,再使用弦轉化后的物種數據計算歐幾里得距離,即為弦距離)。

弦轉化意味着多維空間中的物種向量具有單位長度(對於每個樣方,物種豐度平方和為1)。相較於使用原始物種數據直接計算的歐幾里得距離(沒有上限),弦距離具有上限(上限2^0.5)。

弦距離公式如下:

image.png

其中,y1j和y2j分別是對象1和2中元素j的數值。若是群落物種數據,那么y1j和y2j即分別是樣方1和2中物種j的豐度。p是物種數(樣方-物種矩陣中的物種數)。

 

Hellinger距離(Hellinger distance

Hellinger距離是指通過Hellinger轉化后物種數據計算的歐幾里得距離(首先對原始物種豐度數據執行Hellinger轉化,再使用轉化后的物種數據計算歐幾里得距離)。相較於使用原始物種數據直接計算的歐幾里得距離(沒有上限),Hellinger距離具有上限(上限2^0.5)。

 

對於樣方i中物種j,執行Hellinger轉化公式如下:

image.png

其中,yij是樣方i中物種j的豐度,yi+是樣方i中所有物種的豐度之和,yij是樣方i中物種j的Hellinger轉化后的豐度。從公式可以清楚地看出,它消除了樣方間絕對豐度的差異(標准化為相對豐度),且平方根降低了優勢物種的重要性。

8.png

之后,再基於Hellinger轉化后的數據計算的歐幾里得距離,即為Hellinger距離。

因此Hellinger距離公式可直接寫為:

image.png

其中,y1j和y2j分別是樣方1和2中物種j的豐度,p是物種數(樣方-物種矩陣中的物種數)。

 

Hellinger轉化的另一種說法是平方根轉化后的弦轉化,反過來說,弦轉化是多度數據平方后的Hellinger轉化。這種關系表明弦距離和Hellinger距離存在關聯。

Hellinger轉化是一種預先轉化物種組成數據以用於線性排序方法的方法,並且被認為是處理帶有很多零值的生態數據的合適方法之一。例如,Hellinger距離常應用於物種數據的PCA、RDA等分析中(tb-PCA、tb-RDA),可有效避免“馬蹄形效應”的產生(見本文末尾所述)。

 

卡方距離(chi-square distance

卡方距離通常應用於單峰模型的排序方法中,如CA、CCA。

 

Bray-curtis距離Bray-curtis distance

Bray-curtis距離或稱Bray-curtis相異度(Bray-curtis dissimilarity)、相異百分率(Percentage difference)。其計算公式如下:

image.png

 

其中p是物種數(樣方-物種矩陣中的物種數),yij和yik表示兩個樣方中對應的物種多度。

Bray-curtis距離的取值范圍范圍由0(兩個群落的物種類型和豐度完全一致)到1(兩個群落不共享任何物種),因此它也可以直接通過“1 – 距離指數 = 相似性指數”轉化為相似性指數(上文提到的“相似百分率”)。Bray-curtis距離適用於群落物種數據分析的原因在於它是一個非對稱指數,可有效忽略雙零。

 

Unifrac距離Unifrac distance

這里再額外簡介一種特殊的距離,Unifrac距離,它常用於微生物群落的研究中(例如,16S擴增子測序)。上述距離的計算方法,僅考慮了物種的存在與否及其豐度,沒有考慮物種之間的進化關系,距離0表示兩個群落的物種組成結構完全一致。在Unifrac距離中,除了關注考慮了物種的存在與否及其豐度外,還將物種之間的進化關系考慮在內,距離0更側重於表示兩個群落的進化分類完全一致。

例如在16S擴增子測序中,根據16S序列組成構建OTUs進化樹,OTUs之間存在進化上的聯系,因此不同OTUs之間的(系統發育)距離實際上有“遠近”之分。將系統發育樹和OTUs豐度數據一起添加至距離的計算中,計算Unifrac距離。而若使用上述提到的其它只基於OTUs豐度數據計算群落距離的方法,則忽略了OTUs之間的進化關系,認為OTUs間的關系平等。當然,並不是說Unifrac距離是最合適16S群落分析的,很多情況下它其實也並沒有比只基於OTUs豐度數據計算群落距離的方法(如Bray-curtis距離)“更好”,總之具體問題具體分析吧,根據實際情況選擇合適的距離測度。

9.png

Unifrac距離分為非加權Unifrac距離(Unweighted unifrac distance)和加權Unifrac距離(Weighted unifrac distance)。兩種的主要區別是否考慮了物種的豐度。非加權Unifrac距離只考慮了物種有無的變化,不關注物種豐度,若兩個微生物群落間存在的物種種類完全一致,則距離為0;加權Unifrac距離同時考慮物種有無和物種豐度的變化,若兩個微生物群落間存在的物種種類及豐度完全一致,則距離為0。

 

對於非加權和加權Unifrac距離的選擇,看網上很多帖子給的經驗性建議:在環境樣本的檢測中,由於影響因素復雜,群落間物種的組成差異更為劇烈,因此往往采用非加權方法進行分析。但如果要研究對照與實驗處理組之間的關系,例如研究短期青霉素處理后,人腸道的菌落變化情況,由於處理后群落的組成一般不會發生大改變,但群落的豐度可能會發生大變化,因此更適合用加權方法去計算。(來源

當然這只是建議,實際情況中可能效果並沒有那么好,個人體會如此,總之具體問題具體分析吧。

 

R語言計算相似性指數或距離指數


常見的相似性指數或距離指數,如Jaccard相似性指數、歐幾里得距離、Bray-curtis距離等,在R中可通過vegan包vegdist()函數計算。但是需要注意一點,像Jaccard指數這些,本身屬性是相似指數,但vegdist()函數的輸出結果統統為距離指數,必要時需要通過“S=1-D”轉換;本身屬性是相異指數的,則無需再作轉換。stats包、ade4包、cluster包、FD包等,也提供了計算相似性指數或距離指數的命令,可自行了解。

對於特殊的Unifrac距離,在R中可通過phyloseq包UniFrac()函數計算,GUniFrac包GUniFrac()函數也可以。

 

相似性或距離的計算中的注意事項


選擇合適的度量標准很重要,特別是對於距離測度。例如,在某些情形中我們直接使用了歐幾里得距離,但實際上可能不是很合適(特別是在處理物種數據中,歐氏距離因其對稱指數的屬性,會受到很大的限制)。以相似性或距離為基礎的排序或聚類方法強烈依賴於該度量標准的選擇。

在計算之前需要確定分析所關注的是Q模式還是R模式(Q模式關注樣方間的差異,R模式關注物種間的差異),因為兩種模式的適用方法不同(例如Bray-Curtis距離常用於反映各群落間物種組成的差異(Q模式),而不能表示單個物種的分布狀態(R模式);同樣地,Pearson相關系數對物種之間的關聯(R模式)有意義,但不適用於樣方之間的關聯(Q模式))。

如果主要關注樣方之間的差異(Q模式),生態學中的“雙零”問題一定不要忽視。

方法選擇還取決於數據是定性的(即二元數據,不存在或存在的0-1數據類型)還是定量的(如實際的物種豐度數據)。

 


關於歐幾里得距離應用在群落相似性分析中的常見問題


上面提到了好幾次這么一個問題:為什么不建議使用原始物種豐度數據計算歐幾里得距離?

 

歐幾里德距離:豐度悖論


上文提到多次,歐幾里得距離屬於對稱指數類型,因此不能有效地處理“雙零”問題,而是將“0-0”現象視作“等豐度”對待。當兩個樣方之間存在很多同為0豐度的物種的情況時,很容易“拉近二者的距離”。

這一點上文有提及,不再額外舉例說明了。

 

另外一方面,歐幾里得距離還具有對“物種豐度的差異”比對“物種是否存在”更加敏感的屬性。因此,在使用歐幾里得距離評估群落相似性時,兩個共享很少物種的樣方可能看起來比兩個共享較多物種但物種的豐度差別很大的樣方具有更相似(具有更低的歐幾里得距離),干擾我們對群落相似度的判斷。對於這種情況,我們舉一個例子說明吧。在下面的物種組成矩陣中,樣方1和2不共享任何物種,而樣方1和3共享所有物種但豐度不同(例如物種3在樣方1中的豐度為1,而在樣方3中的豐度為8)。然后我們根據歐幾里得距離的公式計算群落距離。

10.png

根據歐幾里得距離,我們得到了這樣的結果:樣方1和2具有比樣方1和3更高的群落相似度!這顯然是很難讓人接受的,畢竟樣方1和2沒有共享任何的物種,而樣方1和3共享所有物種,僅僅是豐度相差較大而已。對比之下,樣方1和3具有比樣方1和2更高的群落相似度,這樣的結果似乎更容易讓人接受。

 

常見問題示例,“PCA的馬蹄形效應”


那么,這種“豐度悖論”會帶來怎樣的干擾呢?我們舉個常見的例子來說明吧。

下圖反映了不同環境梯度下物種的豐度分布狀態,橫軸從左往右,代表了不同的環境梯度,每條曲線代表一種物種,縱軸為物種的豐度。我們知道,自然界的物種大多屬於“單峰分布”,即在最適的環境條件下豐度最高;偏離最適環境時,豐度會逐漸降低;當環境差異很大(極端)時,豐度通常就很少了甚至為0。由於每類物種的最適生態位不同,因此各異的環境下各類物種的豐度組成肯定是顯著不同的。

11.png

實際的生態學研究中,經常會涉及到在不同環境中的取樣調查過程。毫無疑問,當你在一個“較長”的環境梯度內(或者說,在差異很大的幾個環境中)取樣時,肯定會存在很多物種出現0值的情形。並且兩個環境之間差異越大,共享物種就越少。

然后你期望通過排序分析,探究不同環境之間群落差異程度。如果你選擇的方法為PCA(PCA以歐幾里得距離為基礎),並且直接在原始物種豐度(存在非常多的0值,且豐度也通常不均)的基礎上執行PCA,那么也就有很大概率出現類似上文提到的情形:具有很多“雙零”的樣方,距離被“拉近”;很多共享物種數很少的幾個樣方,比很多共享更多物種數(但共享物種豐度差異較大)的樣方,具有“更高的相似性”。最后,PCA排序圖呈現出了這么一種狀態,形似馬蹄,常稱為“馬蹄形效應”(horseshoe effect)。

12.png

有點懵?來個容易理解的。下圖左圖每一個點代表一個樣方,橫軸表示環梯度,縱軸表示物種豐度,這里僅存在兩個物種。好了,我們只需要根據這兩個物種在各樣方中的豐度組成,判斷群落相似性即可。當組合兩個物種的豐度去執行PCA時,得到了右圖的排序結果(產生類似於馬蹄形),發現“兩極”的環境梯度卻具有了較高的群落相似度?實際上,“兩極”的環境在兩種物種組成上差異是巨大的,因此PCA結果顯然是不可靠的。

13.png

 

常用的解決方案


如上文在介紹“歐幾里得距離”中提到的那樣,在處理物種數據時,一個有效的方法是首先對物種數據執行預轉化,如Hellinger轉化等,然后再計算歐幾里得距離。盡管Hellinger距離仍然是“對稱指數”,仍具歐氏距離屬性,但它存在“上限2^0.5”(而原始物種數據直接計算得到的歐幾里得距離,上限由數據本身決定,有時可以達到很大的值),並且減少了高豐度物種的重要性,降低了歐幾里得距離對“物種豐度”的敏感性等,這些有效降低了“雙零”問題導致的誤差。因此Hellinger距離也通常被認為是處理帶有很多零值的生態數據的合適方法之一。這也是為什么在對物種數據執行PCA、RDA時,推薦首先對物種數據執行Hellinger預轉化的原因,可有效避免“馬蹄形效應”產生。

如果沒有硬性要求一定要為歐氏距離屬性,那么對於物種數據,最好使用非對稱指數計算相異矩陣,例如常見的Bray-curtis距離等。正如上文“對稱指數和非對稱指數”中所提到的,非對稱指數有效解決了“雙零”問題。事實上,我們在物種數據的排序分析中也更多地使用PCoA(可以使用任意距離,物種數據中常用Bray-curtis距離等)代替PCA(歐幾里得距離屬性),原因也是如此了。

 


參考資料


張金屯. 數量生態學. 科學出版社, 2004.

DanielBorcard, FranoisGillet, PierreLegendre, et al. 數量生態學:R語言的應用(賴江山 譯). 高等教育出版社, 2014.

David Zeleny博士:Ecological resemblance

Jari Oksanen1. Multivariate Analysis in Ecology - Lecture Notes -. 2004

Legendre P, Legendre L. Numerical Ecology. Second English edition. Developments in Environmental Modelling, 1998, 20, Elsevier


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM