最近花些時間學習了一下Python,並寫了一個多線程的爬蟲程序來獲取電影天堂上資源的迅雷下載地址,代碼已經上傳到GitHub上了,需要的同學可以自行下載。剛開始學習python希望可以獲得寶貴的意見。
先來簡單介紹一下,網絡爬蟲的基本實現原理吧。一個爬蟲首先要給它一個起點,所以需要精心選取一些URL作為起點,然后我們的爬蟲從這些起點出發,抓取並解析所抓取到的頁面,將所需要的信息提取出來,同時獲得的新的URL插入到隊列中作為下一次爬取的起點。這樣不斷地循環,一直到獲得你想得到的所有的信息爬蟲的任務就算結束了。我們通過一張圖片來看一下。
好的 下面進入正題,來講解下程序的實現。
首先要分析一下電影天堂網站的首頁結構。
從上面的菜單欄中我們可以看到整個網站資源的總體分類情況。剛剛好我們可以利用到它的這個分類,將每一個分類地址作為爬蟲的起點。
①解析首頁地址 提取分類信息
#解析首頁 def CrawIndexPage(starturl): print "正在爬取首頁" page = __getpage(starturl) if page=="error": return page = page.decode('gbk', 'ignore') tree = etree.HTML(page) Nodes = tree.xpath("//div[@id='menu']//a") print "首頁解析出地址",len(Nodes),"條" for node in Nodes: CrawledURLs = [] CrawledURLs.append(starturl) url=node.xpath("@href")[0] if re.match(r'/html/[A-Za-z0-9_/]+/index.html', url): if __isexit(host + url,CrawledURLs): pass else: try: catalog = node.xpath("text()")[0].encode("utf-8") newdir = "E:/電影資源/" + catalog os.makedirs(newdir.decode("utf-8")) print "創建分類目錄成功------"+newdir thread = myThread(host + url, newdir,CrawledURLs) thread.start() except: pass
在這個函數中,首先將網頁的源碼下載下來,通過XPath解析出其中的菜單分類信息。並創建相應的文件目錄。有一個需要注意的地方就是編碼問題,但是也是被這個編碼糾纏了好久,通過查看網頁的源代碼,我們可以發現,網頁的編碼采用的是GB2312,這里通過XPath構造Tree對象是需要對文本信息進行解碼操作,將gb2312變成Unicode編碼,這樣DOM樹結構才是正確的,要不然在后面解析的時候就會出現問題。
②解析每個分類的主頁
# 解析分類文件 def CrawListPage(indexurl,filedir,CrawledURLs): print "正在解析分類主頁資源" print indexurl page = __getpage(indexurl) if page=="error": return CrawledURLs.append(indexurl) page = page.decode('gbk', 'ignore') tree = etree.HTML(page) Nodes = tree.xpath("//div[@class='co_content8']//a") for node in Nodes: url=node.xpath("@href")[0] if re.match(r'/', url): # 非分頁地址 可以從中解析出視頻資源地址 if __isexit(host + url,CrawledURLs): pass else: #文件命名是不能出現以下特殊符號 filename=node.xpath("text()")[0].encode("utf-8").replace("/"," ")\ .replace("\\"," ")\ .replace(":"," ")\ .replace("*"," ")\ .replace("?"," ")\ .replace("\""," ")\ .replace("<", " ") \ .replace(">", " ")\ .replace("|", " ") CrawlSourcePage(host + url,filedir,filename,CrawledURLs) pass else: # 分頁地址 從中嵌套再次解析 print "分頁地址 從中嵌套再次解析",url index = indexurl.rfind("/") baseurl = indexurl[0:index + 1] pageurl = baseurl + url if __isexit(pageurl,CrawledURLs): pass else: print "分頁地址 從中嵌套再次解析", pageurl CrawListPage(pageurl,filedir,CrawledURLs) pass pass
打開每一個分類的首頁會發現都有一個相同的結構(點擊打開示例)首先解析出包含資源URL的節點,然后將名稱和URL提取出來。這一部分有兩個需要注意的地方。一是因為最終想要把資源保存到一個txt文件中,但是在命名時不能出現一些特殊符號,所以需要處理掉。二是一定要對分頁進行處理,網站中的數據都是通過分頁這種形式展示的,所以如何識別並抓取分頁也是很重要的。通過觀察發現,分頁的地址前面沒有“/”,所以只需要通過正則表達式找出分頁地址鏈接,然后嵌套調用即可解決分頁問題。
③解析資源地址保存到文件中
#處理資源頁面 爬取資源地址 def CrawlSourcePage(url,filedir,filename,CrawledURLs): print url page = __getpage(url) if page=="error": return CrawledURLs.append(url) page = page.decode('gbk', 'ignore') tree = etree.HTML(page) Nodes = tree.xpath("//div[@align='left']//table//a") try: source = filedir + "/" + filename + ".txt" f = open(source.decode("utf-8"), 'w') for node in Nodes: sourceurl = node.xpath("text()")[0] f.write(sourceurl.encode("utf-8")+"\n") f.close() except: print "!!!!!!!!!!!!!!!!!"
這段就比較簡單了,將提取出來的內容寫到一個文件中就行了
為了能夠提高程序的運行效率,使用了多線程進行抓取,在這里我是為每一個分類的主頁都開辟了一個線程,這樣極大地加快了爬蟲的效率。想當初,只是用單線程去跑,結果等了一下午最后因為一個異常沒處理到結果一下午都白跑了!!!!心累
class myThread (threading.Thread): #繼承父類threading.Thread def __init__(self, url, newdir,CrawledURLs): threading.Thread.__init__(self) self.url = url self.newdir = newdir self.CrawledURLs=CrawledURLs def run(self): #把要執行的代碼寫到run函數里面 線程在創建后會直接運行run函數 CrawListPage(self.url, self.newdir,self.CrawledURLs)
以上只是部分代碼,全部代碼可以到GitHub上面去下載(點我跳轉)
最后爬取的結果如下。