原文鏈接:http://tecdat.cn/?p=6715
可視化已成為數據科學在電信行業中的關鍵應用。具體而言,電信分析高度依賴於地理空間數據的使用。
這是因為電信網絡本身在地理上是分散的,並且對這種分散的分析可以產生關於網絡結構,消費者需求和可用性的有價值的見解。
數據
為了說明這一點,使用k均值聚類算法來分析免費公共WiFi的地理數據。
具體地,k均值聚類算法用於基於與特定提供商相關聯的緯度和經度數據來形成WiFi使用的集群。
從數據集本身,使用R提取緯度和經度數據:
這是一個數據片段:
確定群集的數量
現在,需要使用scree圖確定簇的數量。
從上面可以看出,曲線在大約11個星團處平穩。因此,這是將在k-means模型中使用的聚類數。
K均值分析
K-Means分析本身是:
在數據框newyorkdf中,顯示緯度和經度數據以及群集標簽:
這個例子很有用,但理想的情況是將這些集群附加到紐約市本身的地圖上。
地圖可視化
為了生成紐約市的地圖 ,如下所示。
運行上述內容后,將生成NYC地圖以及相關群集:
這種類型的聚類可以深入了解城市中WiFi網絡的結構。例如,群集1中有650個單獨的點,而群集6中存在100個點。
這表明由集群1標記的地理區域顯示了大量的WiFi流量。另一方面,群集6中較低數量的連接指示低WiFi流量。
K-Means聚類本身並不能告訴我們為什么特定集群的流量高或低。但是,此聚類算法為進一步分析提供了一個很好的起點,並且可以更輕松地收集其他信息,以確定一個地理集群的流量密度可能高於另一個地理集群的原因。
結論
此示例演示了k-means聚類如何與地理數據一起使用,以便可視化整個WiFi接入點。此外,我們還看到了k-means聚類如何指示用於WiFi接入的高密度區域和低密度區域,以及可以從中提取關於人口,WiFi速度以及其他因素的潛在見解。