自學Python七爬蟲實戰一

本文轉載自查看原文 2016-01-18 16:58 2522 Python Spider

　　此文承接上文，讓我們寫一個簡簡單單的爬蟲，循序而漸進不是嗎？此次進行的練習是爬取前5頁什么值得買網站中的白菜價包郵信息。包括名稱，價格，推薦人，時間。

　　我們所需要做的工作：1.確定URL並獲得頁面代碼。 2.用正則匹配每件商品我們所需要的內容 3.打印信息我還是直接上代碼吧，具體步驟看注釋就好啦！（代碼會引用HttpClient.py，可以參考之前的SmartQQ協議一文）！

 1 # -*- coding: utf-8 -*-
 2 import re,time,os
 3 from HttpClient import HttpClient
 4 class Smzdm(HttpClient):
 5     def __init__(self):
 6         self.__pageIndex = 1
 7         self.__Url = "http://faxian.smzdm.com/9kuai9/p" 
 8 
 9     #正則得到每頁商品信息
10     def __getAllGoods(self,pageIndex):
11         realurl = self.__Url + str(pageIndex)
12         pageCode = self.Get(realurl)
13         pattern = re.compile('<h2 .*?itemName"><a.*?<span .*?black">(.*?)</span><span .*?red">(.*?)</span></a></h2>.*?'+
14                              '<div .*?itemUserInfo">.*?<a .*?<span .*?rankTitle">(.*?)</span>.*?<span .*?time">(.*?)</span>',re.S)
15         items = re.findall(pattern,pageCode.decode("utf-8"))
16         for item in items:
17             print item[0],item[1],item[2],item[3]
18 
19     def start(self):
20         print("正在讀取前五頁白菜價包郵，請稍等...")
21         for i in range(1,6):
22             print i
23             self.__getAllGoods(i)
24 
25 pc = Smzdm()
26 pc.start()

　　執行結果如下：

　　是不是感覺，代碼怎么這么少，這就搞定了？YES!

　　稍微解釋一下思路，一般類似於這種網站都是頁面+頁號構成url。所以定義一個基礎url，根據傳入的頁號構造一個真實的url。通過urllib2模塊訪問頁面得到頁面代碼，通過構造正則pattern，調用re.findall()函數找到當前頁面所有的信息，然后打印出來。一個功能智障，代碼簡單的爬蟲就造好了，easy的會了default的當然就水到渠成了，接下來你可以去試試糗事百科的段子，百度貼吧的帖子，網易新聞的留言等等！另外，我的環境為2.7.10，python3以下需要注意編碼問題，到處都是坑！

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 自學Python十一 Python爬蟲總結自學Python八爬蟲大坑之網頁亂碼 Python 爬蟲入門實戰零基礎自學用Python 3開發網絡爬蟲(一) 我是如何自學 Python 的 Python爬蟲 ---scrapy框架初探及實戰 Python爬蟲之Scrapy天氣預報實戰 python爬蟲框架scrapy 豆瓣實戰 Python 爬蟲實戰（二）：使用 requests-html Python爬蟲實戰-數據可視化

自學Python七 爬蟲實戰一

免責聲明！

自學Python七爬蟲實戰一