最近對爬蟲有點着迷,
在用bs4模塊時,遇到報錯:UnicodeDecodeError: 'gbk' codec can't decode byte 0xae in position 9: illegal multibyte sequence
bs4獲取本地文件內容
from bs4 import BeautifulSoup soup = BeautifulSoup(open('a.html'), 'html.parser') print(soup.prettify()) # 打印本地文件的內容
其中,a.html的內容為:
<div>大家好</div> <p>你好啊</p>
運行報錯
上面是字符流的問題
from bs4 import BeautifulSoup soup = BeautifulSoup(open('a.html', 'rb'), 'html.parser') print(soup.prettify()) # 打印本地文件的內容
運行結果: