问题：python3 使用beautifulSoup时，出错UnicodeDecodeError: 'gbk' codec …….

本文转载自查看原文 2017-02-21 21:18 3197

想将html文件转为纯文本，用Python3调用beautifulSoup

超简单的代码一直出错，用于打开本地文件：

 
 
 
  
  
  from bs4 import BeautifulSoup
  
  
  file = open('index.html')
  
  
  soup = BeautifulSoup(file,'lxml')
  
  
  print (soup)

出现下面的错误

UnicodeDecodeError : ‘gbk’ codec can’t decode byte 0xff in position 0: illegal multibyte sequence

beautifulSoup不是自称可以解析各种编码格式的吗？为什么还会出现解析的问题？？？

搜了很多关于beautifulSoup的都没有解决，突然发现，如果把代码写成

 
 
 
  
  
  from bs4 import BeautifulSoup
  
  
  file = open('index.html')
  
  
  str1 = file.read() # 错误出在这一行！！！
  
  
  soup = BeautifulSoup(str1,'lxml')
  
  
  print (soup)

原来如此！ 问题出在文件读取而非BeautifulSoup的解析上！！

好吧，查查为什么文件读取有问题，直接上正解，同样四行代码

 
 
 
  
  
  from bs4 import BeautifulSoup
  
  
  file = open('index.html','r',encoding='utf-16-le')
  
  
  soup = BeautifulSoup(file,'lxml')
  
  
  print (soup)

然后soup.get_text()得到标签中的文字

其它

如果文件中存在多种编码而且报错，可以采用下面这种方式忽略，没测试–

 
 
 
  
  
  soup = BeautifulSoup(content.decode('utf-8','ignore'))

From WizNote

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 python3 open txt的UnicodeDecodeError: 'gbk' codec问题解决方案 Python3 关于UnicodeDecodeError/UnicodeEncodeError: ‘gbk’ codec can’t decode/encode bytes类似的文本编码问题 python读取文件时提示"UnicodeDecodeError: 'gbk' codec can't decode Anaconda中启动Python时的错误：UnicodeDecodeError: 'gbk' codec can't decode byte 0xaf in position 553 Python读取文件时出现UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position xx: 解决方案 14 python读取文件时出现UnicodeDecodeError: 'gbk' codec can't decode byte 0xb7 in position 26: illegal multibyte sequence解决方法 Python3解决UnicodeDecodeError: 'utf-8' codec can't decode byte..问题最快解决方案 python3 BeautifulSoup模块使用 Python3 使用requests请求，解码时出错：'utf8' codec can't decode byte 0x8b in position 1: invalid start byte Django 运行Admin 页面时出现 UnicodeDecodeError: 'gbk' codec can't decode byte XXXX解决方法