今天根據B站播放量最高的一個Python爬蟲教學視頻學習了一下,視頻中的案例是爬取豆瓣電影TOP250,學習過程中遇到一些問題特此隨筆作為記錄。
我出現問題的地方對應部分網站源碼如下圖:
由於沒有學過html的前端網頁知識,所以圖中的 代表什么意思也是上網查詢后得知:它是html中的一個轉義字符代表的是html中的硬空格,也就是在網頁中顯示的時候有一個 就顯示一個空格。
這段源代碼存儲的是電影的外文名,我用正則匹配的時候將多余的 也涵蓋了,所以最終結果多了一些奇怪的字符:\xa0
爬取結果如下圖
那么怎么去除\xa0呢?
一開始我想着利用字符串的方法 :字符串.replace(' ', '', '要替換的字符串')來處理,結果並沒有發生改變
后來查了查,才知道其實要用unicode編碼來替換。
但其實 對應的unicode編碼就是\xa0,所以直接替換\xa0為空白就可以了
代碼如下
代碼中 titles[1] 就是我匹配出來的包含\xa0的電影外文名的字符串。
還查了網上的其他的資料,好像還有別的辦法,沒去研究,暫時不討論了