python爬取網站數據保存使用的方法

本文轉載自查看原文 2015-02-12 11:39 7524

這篇文章主要介紹了使用Python從網上爬取特定屬性數據保存的方法，其中解決了編碼問題和如何使用正則匹配數據的方法，詳情看下文

編碼問題
因為涉及到中文，所以必然地涉及到了編碼的問題，這一次借這個機會算是徹底搞清楚了。
問題要從文字的編碼講起。原本的英文編碼只有0~255，剛好是8位1個字節。為了表示各種不同的語言，自然要進行擴充。中文的話有GB系列。可能還聽說過Unicode和UTF-8，那么，它們之間是什么關系呢？
Unicode 是一種編碼方案，又稱萬國碼，可見其包含之廣。但是具體存儲到計算機上，並不用這種編碼，可以說它起着一個中間人的作用。你可以再把Unicode編碼 (encode)為UTF-8，或者GB，再存儲到計算機上。UTF-8或者GB也可以進行解碼(decode)還原為Unicode。
在python中Unicode是一類對象，表現為以u打頭的，比如u'中文'，而string又是一類對象，是在具體編碼方式下的實際存在計算機上的字符串。比如utf-8編碼下的'中文'和gbk編碼下的'中文'，並不相同。可以看如下代碼：

復制代碼代碼如下:

 
>>> str=u'中文' 
          
>>> str1=str.encode('utf8') 
          
>>> str2=str.encode('gbk') 
          
>>> print repr(str) 
          
u'\u4e2d\u6587' 
          
>>> print repr(str1) 
          
'\xe4\xb8\xad\xe6\x96\x87' 
          
>>> print repr(str2) 
          
'\xd6\xd0\xce\xc4'

可以看到，其實存儲在計算機中的只是這樣的編碼，而不是一個一個的漢字，在print的時候要知道當時是用的什么樣的編碼方式，才能正確的print出來。有一個說法提得很好，python中的Unicode才是真正的字符串，而string是字節串
文件編碼
既然有不同的編碼，那么如果在代碼文件中直接寫string的話，那么它到底是哪一種編碼呢？這個就是由文件的編碼所決定的。文件總是以一定的編碼方式保存的。而python文件可以寫上coding的聲明語句，用來說明這個文件是用什么編碼方式保存的。如果聲明的編碼方式和實際保存的編碼方式不一致就會出現異常。可以見下面例子：以utf-8保存的文件聲明為gbk

復制代碼代碼如下:

 
#coding:gbk 
          
str=u'漢' 
          
str1=str.encode('utf8') 
          
str2=str.encode('gbk') 
          
str3='漢' 
          
print repr(str) 
          
print repr(str1) 
          
print repr(str2) 
          
print repr(str3)

提示錯誤 File "test.py", line 1 SyntaxError: Non-ASCII character '\xe6' in file test.py on line 1, but no encodi ng declared; see http://www.python.org/peps/pep-0263.html for details 改為

復制代碼代碼如下:

 
#coding:utf8 
          
str=u'漢' 
          
str1=str.encode('utf8') 
          
str2=str.encode('gbk') 
          
str3='漢' 
          
print repr(str) 
          
print repr(str1) 
          
print repr(str2) 
          
print repr(str3)

輸出正常結果 u'\u6c49' '\xe6\xb1\x89' '\xba\xba' '\xe6\xb1\x89'

基本方法
其實用python爬取網頁很簡單，只有簡單的幾句話

復制代碼代碼如下:

 
import urllib2 
          
page=urllib2.urlopen('url').read()

這樣就可以獲得到頁面的內容。接下來再用正則匹配去匹配所需要的內容就行了。
但是，真正要做起來，就會有各種各樣的細節問題。
登錄
這是一個需要登錄認證的網站。也不太難，只要導入cookielib和urllib庫就行。

復制代碼代碼如下:

 
import urllib,urllib2,cookielib 
          
cookiejar = cookielib.CookieJar() 
          
urlOpener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookiejar))

這樣就裝載進一個cookie，用urlOpener去open登錄以后就可以記住信息。
斷線重連
如果只是做到上面的程度，不對open進行包裝的話，只要網絡狀況有些起伏，就直接拋出異常，退出整個程序，是個很不好的程序。這個時候，只要對異常進行處理，多試幾次就行了：

復制代碼代碼如下:

 
def multi_open(opener,*arg): 
          
    while True: 
          
        retryTimes=20 
          
        while retryTimes>0: 
          
            try: 
          
                return opener.open(*arg) 
          
            except: 
          
                print '.', 
          
                retryTimes-=1

正則匹配
其實正則匹配並不算是一個特別好的方法，因為它的容錯性很不好，網頁要完全統一。如果有稍微的不統一，就會失敗。后來看到說有根據xpath來進行選取的，下次可以嘗試一下。
寫正則其實是有一定技巧的：
非貪婪匹配。比如這樣一個標簽：hello，要取出a來，如果寫成這樣的表達式，就不行了：hello。因為*進行了貪婪匹配。這是要用.?：hello。
跨行匹配。實現跨行有一種思路是運用DOTALL標志位，這樣.就會匹配到換行。但是這樣一來，整個匹配過程就會變得很慢。本來的匹配是以行為單位的。整個過程最多就是O(nc2)，n是行數，c是平均列數。現在極有可能變為 O((nc)2)。我的實現方案是運用\n來匹配換行，這樣可以明確指出匹配最多跨躍多少行。比如：abc\s*\n\s*def，就指出查找的是隔一行的。(.\n)?就可以指定是匹配盡可能少的行。
這里其實還要注意一個點。有的行末是帶有\r的。也就是說一行是以\r\n結尾的。當初不知道這一點，正則就調試了很久。現在直接用\s，表示行末空格和\r。
無捕獲分組。為了不對捕獲的分組造成影響，上面的(.\n)可以改為(?:.\n)，這樣捕獲分組時，就會忽略它。
單括號要進行轉義。因為單括號在正則里是用來表示分組的，所以為了匹配單括號就進行轉義。正則字符串最好用的是帶有r前綴的字符串，如果不是的話，則要對\再進行轉義。
快速正則。寫了那么多模式，也總結出一規律出來。先把要匹配的字符相關的段落拿出來。要匹配的東西用(.?)代替。把換行\n替換為字符串\s\n\s*，再去掉行首行末的空格。整個過程在vim中可以很快就寫好。
Excel操作
這次的數據是放進Excel的。到后面才意識到如果放進數據庫的話，可能就沒有那么多事了。但是已經寫到一半，難以回頭了。
搜索Excel，可以得出幾個方案來，一個是用xlrt/xlwt庫，這個不管電腦上是否安裝了Excel，都可以運行，但只能是xls格式的。還有一個是直接包裝了com，需要電腦上安裝了軟件才行。我采用的是前一種。
基本的讀寫沒有問題。但是數據量一大起來，就有問題了。
內存不夠。程序一跑起來，內存占用就一點一點往上漲。后面再查了一下，知道要用flush_row_data。但是還是會出錯。一看內存占用，沒有什么問題，一直很平穩。但最后還是會出現memory error。這真是見鬼了。又是反復地查，反復地運行。一點結果都沒有。要命的是bug只在數據量大起來才出現，而等數據量大起來往往要好幾個小時，這debug的成本實在是太高了。一個偶然的機會，突然發現內存占用，雖然總體平穩，但是會規律性的出現小的高漲，而這規律性，會不會和flush_row_data，有關。一直疑惑的是data被 flush到了哪里。原來xlwt的作法是很蛋疼的作法。把數據存在內存里，或者flush到一個temp，到save的時候，再一次性寫入。而問題正出在這一次性寫入，內存猛漲。那我要flush_row_data何用？為什么不一開始就flush進要寫入的地方。
行數限制。這個是xls格式本身決定的，最多行數只能是65536。而且數據一大，文件打開也不方便。
結合以上兩點，最終采取了這么一個策略，如果行數是1000的倍數，進行一次flush，如果行數超過65536，新開一個sheet，如果超過3個sheet，則新建一個文件。為了方便，把xlwt包裝了一下

復制代碼代碼如下:

 
#coding:utf-8# 
          
import xlwt 
          
class XLS: 
          
    '''a class wrap the xlwt''' 
          
    MAX_ROW=65536 
          
    MAX_SHEET_NUM=3 
          
    def __init__(self,name,captionList,typeList,encoding='utf8',flushBound=1000): 
          
        self.name=name 
          
        self.captionList=captionList[:] 
          
        self.typeList=typeList[:] 
          
        self.workbookIndex=1 
          
        self.encoding=encoding 
          
        self.wb=xlwt.Workbook(encoding=self.encoding) 
          
        self.sheetIndex=1 
          
        self.__addSheet() 
          
        self.flushBound=flushBound 
          
    def __addSheet(self): 
          
        if self.sheetIndex != 1: 
          
            self.wb.save(self.name+str(self.workbookIndex)+'.xls') 
          
        if self.sheetIndex>XLS.MAX_SHEET_NUM: 
          
            self.workbookIndex+=1 
          
            self.wb=xlwt.Workbook(encoding=self.encoding) 
          
            self.sheetIndex=1 
          
        self.sheet=self.wb.add_sheet(self.name.encode(self.encoding)+str(self.sheetIndex)) 
          
        for i in range(len(self.captionList)): 
          
            self.sheet.write(0,i,self.captionList[i]) 
          
        self.row=1 
          
    def write(self,data): 
          
        if self.row>=XLS.MAX_ROW: 
          
            self.sheetIndex += 1 
          
            self.__addSheet() 
          
        for i in range(len(data)): 
          
            if self.typeList[i]=="num": 
          
                try: 
          
                    self.sheet.write(self.row,i,float(data[i])) 
          
                except ValueError: 
          
                    pass 
          
            else: 
          
                self.sheet.write(self.row,i,data[i]) 
          
        if self.row % self.flushBound == 0: 
          
            self.sheet.flush_row_data() 
          
        self.row+=1 
          
    def save(self): 
          
        self.wb.save(self.name+str(self.workbookIndex)+'.xls')

轉換網頁特殊字符
由於網頁也有自己獨特的轉義字符，在進行正則匹配的時候就有些麻煩。在官方文檔中查到一個用字典替換的方案，私以為不錯，拿來做了一些擴充。其中有一些是為保持正則的正確性。

復制代碼代碼如下:

 
html_escape_table = { 
          
    "&": "&", 
          
    '"': """, 
          
    "'": "'", 
          
    ">": ">", 
          
    "<": "<", 
          
    u"·":"·", 
          
    u"°":"°", 
          
    #regular expression 
          
    ".":r"\.", 
          
    "^":r"\^", 
          
    "$":r"\$", 
          
    "{":r"\{", 
          
    "}":r"\}", 
          
    "\\":r"\\", 
          
    "|":r"\|", 
          
    "(":r"\(", 
          
    ")":r"\)", 
          
    "+":r"\+", 
          
    "*":r"\*", 
          
    "?":r"\?", 
          
} 
          
def html_escape(text): 
          
    """Produce entities within text.""" 
          
    tmp="".join(html_escape_table.get(c,c) for c in text) 
          
    return tmp.encode("utf-8")

結
得出的經驗差不多就是這些了。不過最后寫出來的程序自已也不忍再看。風格很不好。一開始想着先寫着試試。然后試着試着就不想改了。
最終的程序要跑很久，其中網絡通信時間占了大部分。是不是可以考慮用多線程重構一下？想想，還是就這樣吧。

您可能感興趣的文章:

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Python：爬取網站圖片並保存至本地 python爬取網站數據使用python爬取財經網站數據接口 python爬取招聘網站數據爬取某些網站的彈幕和評論數據 - Python python爬取網站上的圖片並保存到本地 python爬取網站視頻保存到本地使用htmlunit爬取同花順網站數據 python-requests爬取數據保存至數據庫 python保存爬取的圖片