python爬蟲學習之貼吧抓取


爬蟲學習的一點心得

任務:抓取貼吧主題、作者、創建時間

抓取:requests

解析:xpath,正則表達式

遇到的問題點:

1.headers請求頭要加全,以免被反爬(抓取不到任何信息或者抓取信息不全)

 

2.用xpath解析的時候,我們需要獲取到的內容信息在網頁源代碼中是被注釋掉了,通過js在加載頁面的時候顯示內容,需要先將注釋符號利用正則替換掉

3.保存到CSV中,CSV主要是存取元素為字典的列表;默認newline=‘\n',中間如果不需要空格,則改成newline='';encoding='utf-8',仍然保存的文字為亂碼,改成

encoding='utf-8-sig'可解決此問題。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM