使用Xpath獲取屬性時,出現亂碼問題,解決辦法找了好多,終於解決,特將辦法貼在這,供大家嘗試
不要直接簡單的將爬取的網頁設置為utf-8,
先通過print(r.encoding)輸出看看爬取的是什么編碼,每個網頁采用的編碼不同,
后通過標紅線的代碼可解決問題
selector_new = etree.HTML(html.text)
是將HTML轉化為文本/html 格式
selector_new = etree.HTML(html.content)
是將HTML轉化為二進制/html 格式
我是通過以下鏈接博客解決的:
https://blog.csdn.net/hyg55555/article/details/85246353