Python爬蟲爬取網站內容的時候多出的\xa0（html源碼中的）怎么去掉？

本文轉載自查看原文 2020-07-09 21:40 1777

今天根據B站播放量最高的一個Python爬蟲教學視頻學習了一下，視頻中的案例是爬取豆瓣電影TOP250，學習過程中遇到一些問題特此隨筆作為記錄。
我出現問題的地方對應部分網站源碼如下圖：

由於沒有學過html的前端網頁知識，所以圖中的&nbsp代表什么意思也是上網查詢后得知：它是html中的一個轉義字符代表的是html中的硬空格，也就是在網頁中顯示的時候有一個&nbsp就顯示一個空格。

這段源代碼存儲的是電影的外文名，我用正則匹配的時候將多余的&nbsp也涵蓋了，所以最終結果多了一些奇怪的字符：\xa0

爬取結果如下圖

那么怎么去除\xa0呢?

一開始我想着利用字符串的方法：字符串.replace（'&nbsp', '', '要替換的字符串'）來處理，結果並沒有發生改變

后來查了查，才知道其實要用unicode編碼來替換。
但其實&nbsp對應的unicode編碼就是\xa0，所以直接替換\xa0為空白就可以了

代碼如下

代碼中 titles[1] 就是我匹配出來的包含\xa0的電影外文名的字符串。

還查了網上的其他的資料，好像還有別的辦法，沒去研究，暫時不討論了

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 網頁爬蟲小記：兩種方式的爬取網站內容 python中去掉字符串中的\xa0、\t、\n 【Python爬蟲】入門級爬蟲案例，20行代碼爬取網站圖片（附源碼） python爬蟲：爬取某網站視頻 Python爬蟲實踐——爬取網站文章「爬蟲」從某網站爬取數據 python爬蟲-基礎入門-爬取整個網站《3》 Python--爬蟲之(斗圖啦網站)圖片爬取 Python寫網絡爬蟲爬取騰訊新聞內容 python爬蟲爬取頁面源碼在本頁面展示