【python】獲取網頁中中文內容並分詞

本文轉載自查看原文 2014-01-15 17:25 6200

 1 # -*- coding: utf-8 -*-
 2 
 3 import urllib2
 4 import re
 5 import time
 6 import jieba
 7 
 8 
 9 url="http://www.baidu.com"
10 html=urllib2.urlopen(url).read()
11 html=unicode(html,'utf-8')
12 word=re.findall(ur"[\u4e00-\u9fa5]+",html)
13 
14 s=""
15 for w in word:
16     s+=w
17     
18 seg_list=jieba.cut(s,cut_all=False)
19 fenci="/ ".join(seg_list)
20 print 'get web-->',s
21 print 'div result-》',fenci
22 time.sleep(10)

其中使用了 urllib2 re jieba三個模塊第一個模塊用於獲得網頁內容，第二個模塊用正則表達式提取中文字符第三個模塊用於分詞

參考：

http://zhidao.baidu.com/link?url=4nU9JTj_GsObZExTum1jHRiwdDgEPnRl_oh7Msri3gfBxpH3LdUcaHCtR0wvWl0WCRCrcAlli62veGVl5pw-kK

http://www.cnblogs.com/mmix2009/p/3220427.html

【附】安裝python模塊將其下載后將對應的文件夾拷入python安裝目錄下的 Lib/site-packages/ 下

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 [python]獲取網頁中內容為漢字的字符串的判斷 python 中文分詞：結巴分詞 python中文分詞：結巴分詞 python3獲取一個網頁特定內容 python 使用xpath獲取網頁標簽內容用正則獲取網頁中的標簽內容 PHP中獲取某個網頁或文件內容的方法 Jsoup獲取網頁內容（並且解決中文亂碼問題） python3 利用正則獲取網頁中的想保存下來的內容 python中文分詞，使用結巴分詞對python進行分詞