文章用紅色字體標記出來的內容是修正后的內容,感謝四川的楊同學對我曾經的錯誤提出指正。
最終寫到我最喜歡的一個的工具(算法)了。方向分布是蝦神我接觸的第一個空間統計工具,也是每次講空間統計必需要講的一個,也是對點數據分析中非常實用的一個工具。
點模式的分析中,通常會考察例如以下五種內容:
1、點的疏密。包含點數據的分布探索,是否一致、均勻或者不均勻。
2、點的方位。包含點的分布和方向。
3、點的數量:多少(極值和均值)。
4、點的大小:代表的含義(如點一個點代表多少人口)。
5、其它,如點的一些動態變化等。
(關於點數據分析的其它具體的內容,請看蝦神曾經的文章,或者再公眾號里面回復“點分析”)
當中,我們前面說的好幾種算法,如中心要素、中位數中心和平均中心,都是關於點方位的分析,那么今天我們要講的這個算法,就是同一時候對點的方向和分布進行分析的一種經典算法——標准差橢圓。
這算法最早是由美國南加州大學(Universityof Southern California)社會學教授韋爾蒂.利菲弗(D. Welty Lefever)在1926年提出。所以有的書里面。也把這個算法稱為Lefever's "Standard DeviationalEllipse"(利菲弗方向性分布)(又到每天的歷史起源科普時間……)。
這個算法最大的特點,就如同他的名詞一樣。是用來度量一組數據的方向和分布的。生成的結果又正如他的別名一樣,會輸出一個橢圓,例如以下:
紅色的點是傷寒發病的案例,藍色的河流是長江太湖流域段,從計算的結果來看,發病的數據方向與長江的流向方向基本一致,而范圍較大。
從上圖,我們基本上就能夠看出方向分布工具的主要作用了,它能夠識別一組數據的方向以及分布的趨勢,而且了解到這份數據是否具有一些特性。至於有哪些特性,我們后面再說。
我們先來看看這個標准差橢圓的生成算法。
事實上算法非常easy,要畫出一個橢圓,盡管比畫圓麻煩點。可是也麻煩不了多少,關鍵的參數例如以下:
1、確定圓心。
2、確定旋轉角度。
3、確定XY軸的長度。
首先是確定圓心,方向分布工具的圓心。直接利用的是算數平均中心來計算橢圓的圓心(算術平均中心請查看我在2015年8月17日寫的《空間統計之八:平均中心和中位數中心》一文)
然后就確定橢圓的形式了,公式例如以下:
當中。Xi和Yi是每一個要素的空間位置坐標。X和Y是算數平均中心。
SDEx和SDEy就是計算出來的橢圓的方差,總所周知。橢圓的大小取決於方差大小。長半軸表示最慷慨差。短半軸表示最小方差。在空間統計上面,用X、Y的方差進行計算,得到長短半軸。
然后確定橢圓的方向,以X軸為准,正北方(12點方向)為0度。順時針旋轉。計算公式例如以下:
最后確定XY軸的標准差。公式例如以下:
標准差的作用是確定橢圓的方程,一般橢圓方程例如以下:

S是置信度的值,能夠依據數據量來查詢卡方概率表(Table:Chi-Square Probabilities)。這個大家有興趣去百度一下就有了。
把全部的數據都帶入到公式中,就非常easy的把全部的參數都計算出來。接下去僅僅須要再地圖上畫出結果即可。
那么這個橢圓揭示了一些什么意義呢?
使用ArcGIS的話,方向分布工具除了生成這樣一個橢圓以外,還會給出例如以下結果:
當中,Shape_Leng和Shape_Area是生成的橢圓的周長和面積。單位與你數據的單位同樣,這里我的數據是經緯度的,所以生成的結果僅僅能作為相對參考結果。
CenterX和CenterY表示的是橢圓的中心點。
XstdDist和YStdDist表示的X軸的長度和Y軸的長度。
Rotation表示的是橢圓的方向角度。例如以下:
結果解讀例如以下:
1、橢圓的長半軸表示的是數據分布的方向,短半軸表示的是數據分布的范圍。長短半軸的值差距越大(扁率越大),表示數據的方向性越明顯。反之,假設長短半軸越接近,表示方向性越不明顯。假設長短半軸全然相等,就等於是一個圓了。圓的話就表示沒有不論什么的方向特征。
2、短半軸表示數據分布的范圍,短半軸越短,表示數據呈現的向心力越明顯;反之,短半軸越長,表示數據的離散程度越大。相同,假設短半軸與長半軸全然相等了,就表示數據沒有不論什么的分布特征。
3、中心點表示了整個數據的中心位置,一般來說,僅僅要數據的變異程度不是非常大的話。這個中心點的位置大約與算數平均數的位置基本上是一致的,至於數據變異是什么情況,請看以下第4點。
4、有的同學會非常疑惑,為什么你畫的這個橢圓,還有非常多的點都在外面。沒有把全部的點都包括進去?那么就是就是“標准差橢圓”這個名詞里面的“標准差”的含義所在了。
在ArcGIS工具里面(其它的工具也都幾乎相同),提供了“橢圓大小”(Ellipse_Size)這個參數。這個參數表示你生成的橢圓的級別,一共同擁有三個,例如以下表:
三個級別的橢圓,分別表示了你生成的橢圓。可以包括68%。95%和99%三個級別的數據。我們通過可以指定要表示的標准差數(1、2 或 3)來決定你生成的橢圓包括的數據比例。
當要素具有空間正態分布時(即這些要素在中心處最為密集,而在接近外圍時會逐漸變得稀疏),第一級標准差(默認值)范圍可將約占總數 68%的輸入要素的質心包括在內。第二級標准差范圍會將約占總數 95%的要素包括在內,而第三級標准差范圍則會覆蓋約占總數 99%的要素的質心。
所以。當你選擇不同標准差等級的時候,你發現你的中心點的位置也可能不同。
當然,作為空間分析工具,方向分布一樣能夠進行加權計算。這個計算主要還是與中心點的位置確定以及橢圓標准差等級生成的橢圓大小有關系。
以下我們來通過一個實例來了解方向分布工具的應用:
一共同擁有兩年的傷寒病數據,例如以下,紅色的是2000年的,藍色是2001年的:
使用1個標准差的結果,生成的橢圓如上,詳細數據例如以下:
我們對關鍵性的兩個指標進行對照:
生成面積表示范圍,能夠發現2000的傷寒病發病情況的范圍要大於2001年的,扁率表示他的方向明白性和向心力的程度,2000年生成的橢圓扁率遠高於2001年的,說明了2000的傷寒發病情況,比2001年的方向趨勢更明顯。
2000年生成的橢圓方向與長江的方向基本相相符。所以2000年的傷寒發病源與長江的關系較為密切。而2001年的發病情況盡管方向性並不如2000年的明顯,可是長半軸差點兒與長江垂直,能夠基本確認。2001年傷寒發病源與長江關系不大,可是呈現向內陸爆發的趨勢。
方向分布工具在空間統計中是綜合能力最突出的工具之中的一個。有着廣泛的應用,在我們的分析和數據探索的時候,可以起到很重大的作用。
最后。列出幾個可能的應用:
1、可用來在地圖上標示一組犯罪行為的分布趨勢。而且可以確定該行為與特定要素(一系列酒吧或餐館、某條特定街道等)的關系。
2、在地圖上標示地下水井樣本的特定污染。能夠指示毒素的擴散方式,這在部署應急防災策略時很實用。
3、對各個物種所在區域的橢圓的大小、形狀和重疊部分進行比較能夠分析與物種入侵或者隔離相關的深入信息。
4、繪制一段時間內疾病爆發情況的橢圓可用於建立疾病傳播的模型。