jsoup解析网页出现转义符问题

本文转载自查看原文 2017-05-31 16:32 1867 java/ jsoup

https://www.oschina.net/question/996055_136438

***************************************

我要解析这个网页 http://sports.163.com/13/0830/22/97IFSI5I00051CD5.html

然后直接在获得源码后，使用select 只捕获其中一部分 doc.select("textarea[id^=photoList]")

为何出现了这个情况呢、求大牛们帮忙解决啊 @红薯

很奇怪的是，我用转义符全部替换之后，直接打印在控制台，显示正确，然后又用Jsoup.parse()这个方法，结果又成了这样子、大神们，帮帮忙吧@jsoup

html()和outerHtml()的区别只是有没有包含本层而已，最终底层方法是一样的，所以这里确实转义了。

其实也说得通，因为textarea里的内容是“文本”，html里的纯文本内容，如果不进行转义是不安全的。

当然这里你的需求是"保持原文"，“转义再反转”其实是无法保持原文的。而且Apache的StringEscapeUtils的转义范围比Jsoup要小，所以其实反转是不完整的。

有个比较hack的方法：

Document doc = Jsoup.connect("http://sports.163.com/13/0830/22/97IFSI5I00051CD5.html").get();
//清空jsoup的转义表，会使jsoup失去转义能力
Entities.EscapeMode.base.getMap().clear();
Elements elements = doc.select("textarea[id^=photoList]");
for(Element e:elements){
    System.out.println(e.html());
}

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 Jsoup代码示例、解析网页+提取文本 hive 中转义符使用问题爬虫-jsoup解析 jsoup -- xml文档解析 XML5个转义符 curl 空格和转义符 python转义符的使用 JavaScript转义符 jsoup Cookbook(中文版)-Jsoup解析HTML 【转】常用html转义符,JavaScript转义符