在Python中使用正則表達式去掉字符串里的html標簽

本文轉載自查看原文 2018-11-03 23:56 7446 正則表達式/ Python

有時候會獲得一些帶html標簽的字符串，需要把html標簽去掉，獲得干凈的字符串，這時候可以使用正則表達式。

代碼如下：

import re

htmeString = '''<ul id="TopNav"><li><a href="/EditPosts.aspx" id="TabPosts">隨筆</a></li>
        <li><a href="/EditArticles.aspx" id="TabArticles">文章</a></li>
        <li><a href="/EditDiary.aspx" id="TabDiary">日記</a></li>
        <li><a href="/Feedback.aspx" id="TabFeedback">評論</a></li>
        <li><a href="/EditLinks.aspx" id="TabLinks">鏈接</a></li>
        <li id="GalleryTab"><a href="/EditGalleries.aspx" id="TabGalleries">相冊</a></li>
        <li id="FilesTab"><a href="Files.aspx" id="TabFiles">文件</a></li>
        <li><a href="/Configure.aspx" id="TabConfigure">設置</a></li>
        <li><a href="/Preferences.aspx" id="TabPreferences">選項</a></li></ul>'''


# 方法 1 
pre = re.compile('>(.*?)<') 
s1 = ''.join(pre.findall(htmlString))
print(s1)   # '隨筆文章日記評論鏈接相冊文件設置選項'


# 方法 2
s2 = re.sub(r'<.*?>','',htmlString)
print(s2)   # '\n\n隨筆\n文章\n日記\n評論\n鏈接\n相冊\n文件\n設置\n選項\n\n'

# 再用str.replace()函數去掉'\n'
s2 = s2.replace('\n','')
print(s2)   # '隨筆文章日記評論鏈接相冊文件設置選項'

完。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 去掉字符串里特殊字符的正則表達式方求使用正則表達式去掉字符串前面和后面多余的0 使用正則表達式去掉字符串前面多余的0和后面多余的0 js 正則表達式移除字符串中的所有html標簽保留純文本正則表達式替換字符串中的html標簽如何在python中使用正則表達式從多行字符串中刪除特定字符 python用正則表達式匹配字符串里的日期 [Python正則表達式] 字符串中xml標簽的匹配 python_字符串&正則表達式 Python字符串及正則表達式