Python 爬蟲解決escape問題

本文轉載自查看原文 2018-03-15 14:06 2184 爬蟲相關問題

爬取某個國外的網址，遇到的編碼問題，在前段頁面返回的數據是

亞洲私人珍&#34255

;賣，令仝好分享他為此

所傾注的心血與熱愛。

爬蟲源碼是：

url = 'http://www.bonhams.com/auctions/24026/lot/120/?category=list&length=100&page=1'

try:
    result = requests.get(url=url).text
except:
    result = requests.get(url=url).text
if 'javascript">setTimeout' in result:
    result = requests.get(url=url).text

如何處理？

url = 'http://www.bonhams.com/auctions/24026/lot/120/?category=list&length=100&page=1'

try:
    result = requests.get(url=url).text except: result = requests.get(url=url).text if 'javascript">setTimeout' in result: result = requests.get(url=url).text


from HTMLParser import HTMLParser
result_HTMLParser =  HTMLParser().unescape(result)
    
 print result_HTMLParser

打印原始網頁代碼

發現編碼格式正常

html = '&lt;abc&gt;'
用Python可以這樣處理：

import HTMLParser
html_parser = HTMLParser.HTMLParser()
txt = html_parser.unescape(html) #這樣就得到了txt = '<abc>'
如果還想轉回去，可以這樣：

import cgi
html = cgi.escape(txt) # 這樣又回到了 html = '&lt;abc&gt'

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 python爬蟲解決gbk亂碼問題 python爬蟲解決網頁重定向問題使用escape、encodeURI 和 encodeURIComponent 解決url中文亂碼問題 python escape sequences Python escape unescape html Python爬蟲總結——常見的報錯、問題及解決方案 python爬蟲解決手機驗證碼問題 Python網絡爬蟲出現亂碼問題的解決方法 [python]利用urllib+urllib2解決爬蟲分頁翻頁問題爬蟲解決302 問題

Python 爬蟲 解決escape問題

免責聲明！

Python 爬蟲解決escape問題