小白scrapy爬蟲之爬取簡書網頁並下載對應鏈接內容


*准備工作:

爬取的網址:https://www.jianshu.com/p/7353375213ab

爬取的內容:下圖中python庫介紹的內容列表,並將其鏈接的文章內容寫進文本文件中

 1.同上一篇的步驟:

通過'scrapy startproject jianshu_python'命令創建scrapy工程

通過'scrapy genspider jianshu_doc_list jianshu.com'命令創建一個爬蟲

通過'scrapy shell https://www.jianshu.com/p/7353375213ab'命令在命令行窗口里調試得出所需信息的表達式(注意要先設置settings.py里的USER_AGENT值)

2.調試出xpath表達式,寫入爬蟲腳本jianshu_doc_list.py中 

 

3.同樣item的對象聲明來自於items.py文件中 

4.在pipelines.py文件里寫文件名和鏈接的url名的數據去處 

5.settings.py里的設置和運行方式同上一篇,選擇一種即可,結果如下 

 6.再次新建一個爬蟲項目,用於讀取url,並將對應的網頁內容輸出到不同的文本文件

'scrapy startproject python_documents'

'scrapy genspider documents_spider jianshu.com'

'scrapy shell https://www.jianshu.com/p/ef9debf0a029'  # 選取其中一個url作為訪問地址(注意先設置USER_AGENT值)

7.documents_spider.py腳本內容 (注意如果是命令行scrapy crawl documents_spider執行爬蟲方式,urls.txt應放在與scrapy.cfg同級的目錄下;如果是main.py腳本方式執行方式,urls.txt放置位置隨main.py位置改變)

8.pipelines.py腳本內容(setting.py里要設置ITEM_PIPELINES值,否則數據無法輸出到指定文本中)

9.同樣items.py里變量的聲明與documents_spider.py里保持一致 

10.執行結果 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM