Python爬虫爬取网站内容的时候多出的\xa0（html源码中的）怎么去掉？

本文转载自查看原文 2020-07-09 21:40 1777

今天根据B站播放量最高的一个Python爬虫教学视频学习了一下，视频中的案例是爬取豆瓣电影TOP250，学习过程中遇到一些问题特此随笔作为记录。
我出现问题的地方对应部分网站源码如下图：

由于没有学过html的前端网页知识，所以图中的&nbsp代表什么意思也是上网查询后得知：它是html中的一个转义字符代表的是html中的硬空格，也就是在网页中显示的时候有一个&nbsp就显示一个空格。

这段源代码存储的是电影的外文名，我用正则匹配的时候将多余的&nbsp也涵盖了，所以最终结果多了一些奇怪的字符：\xa0

爬取结果如下图

那么怎么去除\xa0呢?

一开始我想着利用字符串的方法：字符串.replace（'&nbsp', '', '要替换的字符串'）来处理，结果并没有发生改变

后来查了查，才知道其实要用unicode编码来替换。
但其实&nbsp对应的unicode编码就是\xa0，所以直接替换\xa0为空白就可以了

代码如下

代码中 titles[1] 就是我匹配出来的包含\xa0的电影外文名的字符串。

还查了网上的其他的资料，好像还有别的办法，没去研究，暂时不讨论了

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 python 爬虫爬取内容时， \xa0 、 \u3000 的含义网页爬虫小记：两种方式的爬取网站内容 python如何去掉字符串‘\xa0’ python，去掉“xa0”和“\r\n” python如何去掉字符串‘\xa0’ Python 去掉从Excel读取的空格\xa0 Python如何去掉字符串‘\xa0’ python去掉字符串'\xa0' 利用python的requests和BeautifulSoup库爬取小说网站内容 python中去掉字符串中的\xa0、\t、\n