Python爬蟲 | 批量爬取今日頭條街拍美圖

本文轉載自查看原文 2021-07-07 11:08 137 前端技術

前言

上篇文章我們爬取了今日頭條街拍美圖，心情相當愉悅，今天這篇文章我們使用Selenium來爬取當當網的暢銷圖書排行。正所謂書中自有黃金屋，書中自有顏如玉，我們通過讀書學習來提高自身的才華，自然能有榮華富貴，也自然少不了漂亮小姐姐。

准備工作

在爬取數據前，我們需要安裝Selenium庫以及Chrome瀏覽器，並配置好ChromeDriver。

Selenium

Selenium是一個自動化測試工具，利用它可以驅動瀏覽器執行特定的動作，如點擊、下拉等操作，同時還可以獲得瀏覽器當前呈現的頁面的源代碼，做到可見即可爬。對於一些JavaScript動態渲染的頁面來說，這種爬取方式非常有效。

Selenium庫的安裝比較簡單一行代碼就行：



pip install selenium

也可以到PyPI下載(https://pypi.python.org/pypi/selenium/#downloads)對應的wheel文件，然后進入到wheel文件目錄，使用pip安裝：



pip install .........whl

安裝驗證，進入Python命令行交互模式，如下圖：

這樣Selenium就安裝完畢了。

ChromeDriver安裝

首先我們先查看Chrome的版本：點擊Chrome菜單“幫助”--->“關於Google Chrome”，即可查看Chrome的版本號，如下圖：

打開ChromeDriver的官方網站，根據自身Chrome瀏覽器版本下載ChromeDriver並安裝：

注意：ChromeDriver和Chrome瀏覽器一定要對應，否則可能無法正常工作。

ChromeDriver的環境變量配置，直接將chromedriver.exe文件拖到Python的Scripts目錄下。

到這來，准備工作就完成了，下面我們正式開始抓取當當網的暢銷圖書排行。

實戰演練

首先，我們進入當當網的暢銷圖書網頁，我們要利用Selenium抓取圖書信息並用pyquery解析得到圖書的排名、圖片、名稱、價格、評論等信息。如下圖：

進入開發者工具中的Network，查看Request URL，如下圖所示：

在頁面下方，有個分頁導航，我們點擊下一頁，觀察Request URL的變化：



http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-24hours\-0-0-1-1        #第1頁  
http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-24hours\-0-0-1-2        #第2頁  
http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-24hours\-0-0-1-23        #第23頁  
http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-24hours\-0-0-1\-page        #第n頁

我們發現該URL只有最后面的那個數字發生變化，所以我們構造的URL就非常簡單了，那個page就是翻頁的關鍵字。

首頁爬取

首先我們先聲明chrome瀏覽器對應，webdriver支持主流的瀏覽器，比如說：谷歌瀏覽器、火狐瀏覽器、IE瀏覽器等等。通過WebDriverWait()方法，指定最長等待時間，當規定時間內沒加載出來就拋出異常。通過page參數來進行翻頁。

代碼如下：

browser=webdriver.Chrome()
wait=WebDriverWait(browser,10)
def index_page(page):
    print('正在爬取第',page,'頁')
    try:
        url='http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-24hours-0-0-1-'+str(page)
        browser.get(url)
        get_booklist()
    except TimeoutException:
        index_page(page)

解析商品列表

接下來，我們就可以實現get_booklist()方法來解析商品列表了，這里我們直接調用page_source獲取頁面源代碼，然后用pyquery進行解析，實現代碼如下：

def get_booklist():
    html=browser.page_source
    doc=pq(html)
    items=doc('.bang_list li').items()
    for item in items:
        book={
            '排名':item.find('.list_num').text(),
            '書名':item.find('.name').text(),
            '圖片':item.find('.pic img').attr('src'),
            '評論數':item.find('.star a').text(),
            '推薦':item.find('.tuijian').text(),
            '作者':item.find('.publisher_info a').text(),
            '日期':item.find('.publisher_info span').text(),
            '原價':item.find('.price_r').text().replace('¥',''),
            '折扣':item.find('.price_s',).text(),
            '電子書':item.find('.price_e').text().replace('電子書：','').replace('¥','')
        }
        saving_book(book)

保存數據

接下來，我們將書本信息保存為csv格式，實現代碼如下：

with open('data.csv','a',newline='',)as csvfile:
    writer=csv.writer(csvfile)
    writer.writerow(['排名','書名','圖片','評論數','推薦','作者','原價','折扣','電子書'])
def saving_book(book):
    with open('data.csv', 'a', newline='')as csfile:
        writer = csv.writer(csfile)
        writer.writerow([book.get('排名'), book.get('書名'), book.get('圖片'), book.get('評論數'), book.get('推薦'), book.get('作者'),book.get('原價'),book.get('折扣'),book.get('電子書')])

遍歷每頁

剛才我們所定義的index_page()方法需要接收參數page，page代表頁碼，這里我們實現頁碼遍歷即可，實現代碼如下：

if __name__ == '__main__':
    for page in range(1,3):
        index_page(page)

這里我們只遍歷2頁，感興趣的可以遍歷多頁。

結果展示

好了，關於Python爬蟲——Selenium爬取當當暢銷圖書排行講到這里了，感謝觀看!我們下篇文章再見!

-------------------******************************** End -------------------************************************

往期精彩文章推薦：

歡迎各位大佬點擊鏈接加入群聊【helloworld開發者社區】：https://jq.qq.com/?_wv=1027&k=mBlk6nzX進群交流IT技術熱點。

本文轉自 https://mp.weixin.qq.com/s/wU3bo7PH86HnsEnikuU6Wg，如有侵權，請聯系刪除。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 python爬取今日頭條街拍分析Ajax爬取今日頭條街拍美圖-崔慶才思路 python 爬蟲抓取今日頭條街拍圖片 python爬蟲—— 抓取今日頭條的街拍的妹子圖爬蟲（八）：分析Ajax請求抓取今日頭條街拍美圖分析Ajax請求並抓取今日頭條街拍美圖分析Ajax請求並抓取今日頭條街拍美圖 ajax爬取今日頭條街拍圖片——data出現none的解決 Python 爬蟲實例（2）—— 爬取今日頭條爬蟲（二）爬取今日頭條圖片