1 # -*- coding: utf-8 -*- 2 3 import urllib2 4 import re 5 import time 6 import jieba 7 8 9 url="http://www.baidu.com" 10 html=urllib2.urlopen(url).read() 11 html=unicode(html,'utf-8') 12 word=re.findall(ur"[\u4e00-\u9fa5]+",html) 13 14 s="" 15 for w in word: 16 s+=w 17 18 seg_list=jieba.cut(s,cut_all=False) 19 fenci="/ ".join(seg_list) 20 print 'get web-->',s 21 print 'div result-》',fenci 22 time.sleep(10)
其中使用了 urllib2 re jieba三個模塊 第一個模塊用於獲得網頁內容,第二個模塊用正則表達式提取中文字符 第三個模塊用於分詞
參考:
http://www.cnblogs.com/mmix2009/p/3220427.html
【附】安裝python模塊將其下載后將對應的文件夾拷入python安裝目錄下的 Lib/site-packages/ 下
