python 正則空格\xa0實錄與xpath取 div 里面的含多個標簽的所有文字

本文轉載自查看原文 2017-12-06 10:18 2331 所有文字/ scrapy \xa0/ python爬蟲xpath/ Python

業余玩爬蟲時，由原先的原生寫法改為 scrapy框架了，使用自帶的selector時，xpath配合正則來抓取回復數和閱讀數的時候，遇到的小問題，mark下。

首先獲取到我需要的數據塊，（我用scrapy shell調試的）

對應的html文檔是：

關於這個空格&nbsp 被爬成了\xa0的問題，我找了一些資料，這里說下原因：

\xa0 叫做不間斷空白符，英文描述non-breaking space，阻止在此處自動換行和阻止多個空格被壓縮成一個，屬於 latin1 （ISO/IEC_8859-1）中的擴展字符集字符，我之所以用下列方法去不掉，是因為我們平常用的更多的空格是\x20，

如下方式取匹配我想要的閱讀數和回復數都失敗了

這里面就是因為空格字符的影響，所以后來用針對空格的辦法，/s 就沒問題了

收集了網上的對付這種問題一些辦法：如下

string.replace(u'\xa0', u' ') ； strip()等，

2.因為有些加粗標題被包含<b></b>標簽下，如下：

他在多了一級的標簽，用text（）就取不到了，

但是xpath('string(.)')這個可以取出所有的文字元素，不包括html標簽，

以上就是這次業余抓取的小實錄，好了，去擁抱下世界上最好的語言了 -。-

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 根據div的id,取div標簽里面的value jq 點擊復制div里面的內容如果粘貼到富文本中，會將樣式，里面所有的標簽，文字一並粘貼進去 Python爬蟲爬取網站內容的時候多出的\xa0（html源碼中的）怎么去掉？點擊div全選中div里面的文字正則如何匹配div下的所有