*准備工作:
爬取的網址:https://www.jianshu.com/p/7353375213ab
爬取的內容:下圖中python庫介紹的內容列表,並將其鏈接的文章內容寫進文本文件中
1.同上一篇的步驟:
通過'scrapy startproject jianshu_python'命令創建scrapy工程
通過'scrapy genspider jianshu_doc_list jianshu.com'命令創建一個爬蟲
通過'scrapy shell https://www.jianshu.com/p/7353375213ab'命令在命令行窗口里調試得出所需信息的表達式(注意要先設置settings.py里的USER_AGENT值)

2.調試出xpath表達式,寫入爬蟲腳本jianshu_doc_list.py中


3.同樣item的對象聲明來自於items.py文件中

4.在pipelines.py文件里寫文件名和鏈接的url名的數據去處

5.settings.py里的設置和運行方式同上一篇,選擇一種即可,結果如下


6.再次新建一個爬蟲項目,用於讀取url,並將對應的網頁內容輸出到不同的文本文件
'scrapy startproject python_documents'
'scrapy genspider documents_spider jianshu.com'
'scrapy shell https://www.jianshu.com/p/ef9debf0a029' # 選取其中一個url作為訪問地址(注意先設置USER_AGENT值)
7.documents_spider.py腳本內容 (注意如果是命令行scrapy crawl documents_spider執行爬蟲方式,urls.txt應放在與scrapy.cfg同級的目錄下;如果是main.py腳本方式執行方式,urls.txt放置位置隨main.py位置改變)

8.pipelines.py腳本內容(setting.py里要設置ITEM_PIPELINES值,否則數據無法輸出到指定文本中)

9.同樣items.py里變量的聲明與documents_spider.py里保持一致

10.執行結果

