爬蟲學習的一點心得
任務:抓取貼吧主題、作者、創建時間
抓取:requests
解析:xpath,正則表達式
遇到的問題點:
1.headers請求頭要加全,以免被反爬(抓取不到任何信息或者抓取信息不全)
2.用xpath解析的時候,我們需要獲取到的內容信息在網頁源代碼中是被注釋掉了,通過js在加載頁面的時候顯示內容,需要先將注釋符號利用正則替換掉。
3.保存到CSV中,CSV主要是存取元素為字典的列表;默認newline=‘\n',中間如果不需要空格,則改成newline='';encoding='utf-8',仍然保存的文字為亂碼,改成
encoding='utf-8-sig'可解決此問題。