將html內容轉為文本的函數


/**
 * 把html內容轉為文本
 *
 * @param html       需要處理的html文本
 * @param filterTags 需要保留的html標簽樣式
 */
public static String trimHtml2Txt(String html, String[] filterTags) {
    html = html.replaceAll("\\<head>[\\s\\S]*?</head>(?i)", "");// 去掉head
    html = html.replaceAll("\\<!--[\\s\\S]*?-->", "");// 去掉注釋
    html = html.replaceAll("\\<![\\s\\S]*?>", "");
    html = html.replaceAll("\\<style[^>]*>[\\s\\S]*?</style>(?i)", "");// 去掉樣式
    html = html.replaceAll("\\<script[^>]*>[\\s\\S]*?</script>(?i)", "");// 去掉js
    html = html.replaceAll("\\<w:[^>]+>[\\s\\S]*?</w:[^>]+>(?i)", "");// 去掉word標簽
    html = html.replaceAll("\\<xml>[\\s\\S]*?</xml>(?i)", "");
    html = html.replaceAll("\\<html[^>]*>|<body[^>]*>|</html>|</body>(?i)", "");
    html = html.replaceAll("\\\r\n|\n|\r", " ");// 去掉換行
    html = html.replaceAll("\\<br[^>]*>(?i)", "\n\r");
    List<String> tags = new ArrayList<String>();
    List<String> s_tags = new ArrayList<String>();
    List<String> halfTag = Arrays.asList(new String[] { "img", "table", "thead", "th", "tr", "td" });//
    if (filterTags != null && filterTags.length > 0) {
        for (String tag : filterTags) {
            tags.add("<" + tag + (halfTag.contains(tag) ? "" : ">"));// 開始標簽
            if (!"img".equals(tag))
                tags.add("</" + tag + ">");// 結束標簽
            s_tags.add("#REPLACETAG" + tag + (halfTag.contains(tag) ? "" : "REPLACETAG#"));// 盡量替換為復雜一點的標記,以免與顯示文本混合,如:文本中包含#td、#table等
            if (!"img".equals(tag))
                s_tags.add("#REPLACETAG/" + tag + "REPLACETAG#");
        }
    }
    html = StringUtils.replaceEach(html, tags.toArray(new String[tags.size()]),
            s_tags.toArray(new String[s_tags.size()]));
    html = html.replaceAll("\\</p>(?i)", "\n\r");
    html = html.replaceAll("\\<[^>]+>", "");
    html = StringUtils.replaceEach(html, s_tags.toArray(new String[s_tags.size()]),
            tags.toArray(new String[tags.size()]));
    html = html.replaceAll("\\ ", " ");
    return html.trim();
}  


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM