正則匹配html標簽以及內容

本文轉載自查看原文 2021-02-04 09:50 346 Java

匹配所有標簽 </?[a-zA-Z! ="-\d]*>
匹配閉合標簽以及里面內容 <[a-zA-Z! ="-\d]*>[^</>]*</[a-zA-Z! ="-\d]*>

java使用要對-進行轉義:

</?[a-zA-Z! ="\-\d]*>
<[a-zA-Z! ="\-\d]*>[^</>]*</[a-zA-Z! ="\-\d]*>

/**
 * @author linyufeng.
 * @date 2021/2/3 13:34
 **/
public class TextUtil {

    // 去除html標簽
    public static String disHtml(String str) {
        return str.replaceAll("</?[a-zA-Z! =\"\\-\\d]*>", "");
    }

    // 去除html標簽以及里面內容
    public static String disAllHtml(String str) {
        return str.replaceAll("<[a-zA-Z! =\"\\-\\d]*>[^</>]*</[a-zA-Z! =\"\\-\\d]*>", "");
    }

}

((?!abc).)* 否定向前語法, 可以幫助我們去除指定前綴的字符串;
[^abc]范圍比較大,不能起到只過濾abc的目的;

所以,上述優化格式為: <[a-zA-Z! ="\-\d]*>((?!</).)*</[a-zA-Z! ="\-\d]*>

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 使用正則表達式匹配 HTML 標簽內的內容正則匹配href標簽內容 JS正則匹配過濾字符串中的html標簽及html標簽內的內容 js正則匹配html內容 JAVA通過正則匹配html里面body標簽的內容，去掉body標簽正則表達式匹配html標簽里面的內容 PHP正則匹配HTML中指定標簽之間內容的寫法 PHP 正則匹配html的標簽正則匹配閉合HTML標簽（支持嵌套）正則匹配閉合HTML標簽（支持嵌套）