python如何去掉字符串‘\xa0’

本文轉載自查看原文 2019-11-13 14:13 634

發現問題：

最近在用爬蟲爬取網頁信息時，在網頁源碼中遇到了“&nbsp"字符串，經查閱，發現該字符是不間斷空格符。我們通常所用的空格是 \x20 ，是在標准ASCII可見字符 0x20~0x7e 范圍內。而 \xa0 屬於 latin1 （ISO/IEC_8859-1）中的擴展字符集字符，代表空白符nbsp(non-breaking space)。 latin1 字符集向下兼容 ASCII （ 0x20~0x7e ）。

解決方法：

>>> s = '09月27日\xa0發布'
>>> s = "".join(s.split())
>>> s
'09月27日發布'
>>>

注：

join()方法：

join()：連接字符串數組。將字符串、元組、列表中的元素以指定的字符(分隔符)連接生成一個新的字符串。

split():split方法中不帶參數時，表示分割所有換行符、制表符、空格。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 python如何去掉字符串‘\xa0’ python，去掉“xa0”和“\r\n” Python去掉字符串中空格的方法 python去掉字符串結尾的逗號,strip函數無效 python去掉字符串之間的逗號和括號 js字符串去掉回車和空格 js 去掉字符串前面的0 如何去掉字符串中的雙引號 js 去掉字符串前后空格 Python: 去掉字符串中的非數字(或非字母)字符