python爬蟲學習之貼吧抓取

本文轉載自查看原文 2019-05-16 21:25 542

爬蟲學習的一點心得

任務：抓取貼吧主題、作者、創建時間

抓取：requests

解析：xpath，正則表達式

遇到的問題點：

1.headers請求頭要加全，以免被反爬（抓取不到任何信息或者抓取信息不全）

2.用xpath解析的時候，我們需要獲取到的內容信息在網頁源代碼中是被注釋掉了，通過js在加載頁面的時候顯示內容，需要先將注釋符號利用正則替換掉。

3.保存到CSV中，CSV主要是存取元素為字典的列表；默認newline=‘\n'，中間如果不需要空格，則改成newline=''；encoding='utf-8'，仍然保存的文字為亂碼，改成

encoding='utf-8-sig'可解決此問題。

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Python爬蟲——抓取貼吧帖子精通Python網絡爬蟲之網絡爬蟲學習路線【普及貼】 python 爬蟲抓取心得 [Python學習] 簡單網絡爬蟲抓取博客文章及思想介紹爬蟲學習筆記（1）-- 利用Python從網頁抓取數據【爬了個爬——學習Python網絡爬蟲】1.抓取頁面【新手】python爬蟲遍歷貼吧用戶 Python爬蟲-百度貼吧 python-實現一個貼吧圖片爬蟲 Python爬蟲爬取貼吧的帖子內容