目前的工作是需要對用戶的一些數據進行分析,每個用戶都有若干條記錄,每條記錄中有用戶的一個位置,是用經度和緯度表示的。
還有一個給定的數據庫,存儲的是一些已知地點以及他們的經緯度,內有43W多條的數據。
現在需要拿用戶的經緯度和已知地點進行距離匹配,如果它們之間的距離小於一定的數據,比如說500米,就認為用戶是在這個地點。
MYSQL本身是支持空間索引的,但是在5.x的版本中,取消了對Distance()和Related()的支持,無法使用空間的距離函數去直接去查詢距離在一定范圍內的點。所以,我首先想到的是,對每條記錄,去進行遍歷,跟數據庫中的每一個點進行距離計算,當距離小於500米時,認為匹配。這樣做確實能夠得到結果,但是效率極其低下,因為每條記錄都要去循環匹配40W條數據,其消耗的時間可想而知。經過記錄,發現每條記錄處理的時間消耗達到1700ms,針對每天上億的數據量,這樣一個處理速度,讓人情何以堪啊。。。
我自己也有個想法,就是找到每條記錄所在點的經緯度周圍的一個大概范圍,比方說正方形的四個點,然后使用mysql的空間計算,使用MBR去得出點在這個矩形內的已知記錄,然后進行匹配。可惜,自己沒想出能計算到四個點經緯度的方法。
意外的,查詢到了一個關於這個計算附近地點搜索初探,里面使用python實現了這個想法。
所以參考了一下原文中的算法,使用PHP進行了實現。
實現原理也是很相似的,先算出該點周圍的矩形的四個點,然后使用經緯度去直接匹配數據庫中的記錄。
紅色部分為要求的搜索范圍,綠色部分我們能間接得到的結果范圍
參考wiki百科上的一些球面計算公式:
Great-circle distance
Haversine formula
假設已知點的經緯度分別為$lng, $lat
先實現經度范圍的查詢,
在haversin公式中令φ1 = φ2,可得:
用PHP進行計算,就是:
Example
代碼如下 | 復制代碼 |
|
然后是緯度范圍的查詢,
在haversin公式中令 Δλ = 0,可得
在PHP中進行計算,就是:
Example
代碼如下 | 復制代碼 |
$dlat = $distance/EARTH_RADIUS;//EARTH_RADIUS地球半徑 |
最后,就可以得出四個點的坐標:
left-top : (lat + dlat, lng – dlng)
right-top : (lat + dlat, lng + dlng)
left-bottom : (lat – dlat, lng – dlng)
right-bottom: (lat – dlat, lng + dlng)
我把以上方法寫成了一個函數,綜合起來就是:
Example
代碼如下 | 復制代碼 |
define(EARTH_RADIUS,6378.137);//地球半徑,平均半徑為6378.137km /** $squares = returnSquarePoint($lng, $lat); |
//計算兩個坐標的直線距離 public function getDistance($lat1, $lng1, $lat2, $lng2){ $earthRadius =6378.137; //近似地球半徑米 // 轉換為弧度 $lat1 = ($lat1 * pi()) / 180; $lng1 = ($lng1 * pi()) / 180; $lat2 = ($lat2 * pi()) / 180; $lng2 = ($lng2 * pi()) / 180; // 使用半正矢公式 用尺規來計算 $calcLongitude = $lng2 - $lng1; $calcLatitude = $lat2 - $lat1; $stepOne = pow(sin($calcLatitude / 2), 2) + cos($lat1) * cos($lat2) * pow(sin($calcLongitude / 2), 2); $stepTwo = 2 * asin(min(1, sqrt($stepOne))); $calculatedDistance = $earthRadius * $stepTwo; return round($calculatedDistance); }
在lat和lng上建立一個聯合索引后,使用此項查詢,每條記錄的查詢消耗平均為0.8毫秒,相比以前的1700ms,真的是天壤之別啊。效率真真的是以前的2125倍~~
總結:這應該也不是效率最好的辦法,但是效率比以前確實有明顯的提升。請記住,總有辦法更好的。