lxml.etree.XMLSyntaxError: Opening and ending tag mismatch: meta line 4 and head, line 6, column 12 报错分析与解决方案

本文转载自查看原文 2022-03-17 12:49 666 爬虫报错

报错分析：

我们检查代码没有任何问题，但报错显示：开始和结束标记不匹配。

html：因为html是超文本标记语言，代码不规范也能解析。

python：python是编程语言，代码不规范则解析不了。

我们只要给python指定解析器，他是不是能解析出网页呢？

parser = etree.HTMLParser(encoding="utf-8") #parser：解析器。文件名+网页类型+解析器（指定编码）

把parser解析器放到tree = etree.parse("b.html"）里面：tree = etree.parse("b.html", parser=parser)

运行：

指定类型解码：etree.tostring(tree, encoding="utf-8").decode("utf-8")
&#13：这是换行符，这个没有影响

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。