小白scrapy爬蟲之爬取簡書網頁並下載對應鏈接內容

本文轉載自查看原文 2018-08-09 21:29 3154

*准備工作：

爬取的內容：下圖中python庫介紹的內容列表，並將其鏈接的文章內容寫進文本文件中

1.同上一篇的步驟:

通過'scrapy startproject jianshu_python'命令創建scrapy工程

通過'scrapy genspider jianshu_doc_list jianshu.com'命令創建一個爬蟲

通過'scrapy shell https://www.jianshu.com/p/7353375213ab'命令在命令行窗口里調試得出所需信息的表達式(注意要先設置settings.py里的USER_AGENT值）

2.調試出xpath表達式，寫入爬蟲腳本jianshu_doc_list.py中

3.同樣item的對象聲明來自於items.py文件中

4.在pipelines.py文件里寫文件名和鏈接的url名的數據去處

5.settings.py里的設置和運行方式同上一篇，選擇一種即可，結果如下

6.再次新建一個爬蟲項目，用於讀取url，並將對應的網頁內容輸出到不同的文本文件

'scrapy startproject python_documents'

'scrapy genspider documents_spider jianshu.com'

'scrapy shell https://www.jianshu.com/p/ef9debf0a029' # 選取其中一個url作為訪問地址（注意先設置USER_AGENT值）

7.documents_spider.py腳本內容 (注意如果是命令行scrapy crawl documents_spider執行爬蟲方式，urls.txt應放在與scrapy.cfg同級的目錄下；如果是main.py腳本方式執行方式，urls.txt放置位置隨main.py位置改變）

8.pipelines.py腳本內容（setting.py里要設置ITEM_PIPELINES值，否則數據無法輸出到指定文本中）

9.同樣items.py里變量的聲明與documents_spider.py里保持一致

10.執行結果

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Scrapy+selenium爬取簡書全站-爬蟲 scrapy中使用selenium+webdriver獲取網頁源碼，爬取簡書網站爬蟲第六篇：scrapy框架爬取某書網整站爬蟲爬取 python 爬蟲（爬取網頁的img並下載） python網絡爬蟲之scrapy 調試以及爬取網頁 python網絡爬蟲之使用scrapy自動爬取多個網頁 Scrapy爬取多層級網頁內容的方式爬蟲---scrapy全站爬取 7-13爬蟲入門之BeautifulSoup對網頁爬取內容的解析 Scrapy項目 - 數據簡析 - 實現斗魚直播網站信息爬取的爬蟲設計