document解析html


解决一个问题有很多方法,虽然可以达到同样的目的,但是过程却是相差胜远.比如:从HTML代码片段里面获取img属性的值

我刚刚开始使用的是正则表达式去匹配,代码如下:

/** * 得到网页中图片的地址 * @param sets html字符串 */  
    public  Set<String> getImgStr(String htmlStr) { Set<String> pics = new HashSet<String>(); String img = ""; Pattern p_image; Matcher m_image; String regEx_img = "<img.*src\\s*=\\s*(.*?)[^>]*?>"; p_image = Pattern.compile(regEx_img, Pattern.CASE_INSENSITIVE); m_image = p_image.matcher(htmlStr); while (m_image.find()) { // 得到<img />数据 
            img = m_image.group(); // 匹配<img>中的src数据 
            Matcher m = Pattern.compile("src\\s*=\\s*\"?(.*?)(\"|>|\\s+)").matcher(img); while (m.find()) { pics.add(m.group(1)); } } return pics; } 

运行过程中发现这种全字段去匹配的方式效率非常低,如果内容大点,会卡死.后面才知道java的document对象可以快速解析HTML代码

Document doc = Jsop.parse(htmlStr); Elements imgNodeList = doc.select("img"); String src = ""; StringBuffer srcBase64s = new StringBuffer(); int n = 1; for(Element imgNode : imgNodeList){ src = imgNode.attr("src"); if(src.contains("base64")){ String srcBase64 = src.split(",")[1]; if(n<imgNodeList).size()){ srcBase64s.append(srcBase64).append(","); n++; }else{ srcBase64s.append((srcBase64); } } } //转化为二进制存储,图片一般都是以二进制去存储的
Bytes.toBytes(srcBase64s.toString())

document是分节点去获取属性值,效率会高很多,其操作方式跟js,jQuery的方式类似,具体可以参照该https://blog.csdn.net/qq541976141/article/details/51162084博客


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM