scrapy使用response.body時編碼問題
摘要:scrapy使用response.body時編碼問題。如果在使用responses.body獲取數據時,需要將其編碼轉換成unicode,即如下處理:
response.body返回的結果是byte字節串,其編碼是網頁的原編碼;
如果在使用responses.body獲取數據時,需要將其編碼轉換成unicode,即如下處理:
body = response.body.decode('gbk') #假設網頁編碼是gbk.
body = response.body.decode(response.encoding) #即可將其轉化成默認的編碼
這樣輸出來的內容才正確。也可以直接用response.text這樣可以直接是字符串了。