采集后的數據都帶有'<>'html標簽:
<img src="http://i4.hdfimg.com/www/images/giftrans/3d/da/7b/18414.gif" border="0"/><span class='WmoJPQM2AzpQMA'>科研<span class='WmoJPQM2AzhQMQ'>最早和<span class='WmoJPQM2AzxQNw'>一項<span class='WmoJPQM2AzdQOA'>教學為一體的現代化<span class='WmoJPQM2AzhQOA'>綜合<span class='WmoJPQM2AzhQMQ'>師從性省級醫院
在這里只要將所有帶<>去除即可:
dr = re.compile(r'<[^>]+>',re.S)
dd = dr.sub('',Html)
完整的python腳本:
第一個函數:將一個字段中的刮號去除
第二個函數:將html中的所有標簽去除