目前從國家統計局官網找到的最新的縣及縣以上行政區划代碼:http://www.stats.gov.cn/tjsj/tjbz/xzqhdm/201608/t20160809_1386477.html
可以看出省市區是有明顯的縮進的,所以我們提取數據的時候可以從這個縮進做文章,下面開始分析頁面:
查看頁面dom結構,可以發現 北京市 市轄區 東城區 ,分別對應 省市區三個級別,他們前面的空格(其實不是空格,是一個特殊的空白符,為了方便就叫空格吧)數量是不一樣的,我們就可以從空格數量判斷出該數據的級別,然后存入數據庫
解析html,我采用了 htmlagilitypack 組件,下面上代碼吧:
效果圖:
demo下載:http://files.cnblogs.com/files/stulzq/%E5%9F%8E%E5%B8%82%E4%B8%89%E7%BA%A7%E8%81%94%E5%8A%A8%E6%95%B0%E6%8D%AE.zip