HTMLParser使用詳解（2）- Node內容

本文轉載自查看原文 2016-07-01 19:58 1660 JAVA

HTMLParser使用詳解（2)- Node內容 2010-03-18 13:41

HTMLParser將解析過的信息留存為一個樹的結構。Node是信息留存的數據類型基礎。
請看Node的界說：
public interface Node extends Cloneable;

Node中包括的要領有幾類：
1、對付樹型結構進行遍歷的函數，這些函數最輕易理解：
Node getParent ()：取得父節點
NodeList getChildren ()：取得子節點的列表
Node getFirstChild ()：取得第一個子節點
Node getLastChild ()：取得最后一個子節點
Node getPreviousSibling ()：取得前一個兄弟（欠好意思，英文是兄弟姐妹，直譯太麻煩並且不相符習慣，抱歉女同胞了）
Node getNextSibling ()：取得下一個兄弟節點
2、取得Node 內容的函數：
String getText ()：取得文本
String toPlainTextString()：取得純文本信息。
String toHtml () ：取得HTML信息（原始HTML）
String toHtml (boolean verbatim)：取得HTML信息（原始HTML）
String toString ()：取得字符串信息（原始HTML）
Page getPage ()：取得這個Node對應的Page東西
int getStartPosition ()：取得這個Node在HTML頁面中的起始位置
int getEndPosition ()：取得這個Node在HTML頁面中的結束位置
3、 用於Filter過濾的函數：
void collectInto (NodeList list, NodeFilter filter)：基於filter的條件對付這個節點進行過濾，相符條件的節點放到list中。
4、用於 Visitor遍歷的函數：
void accept (NodeVisitor visitor)：對這個Node應用visitor
5、用於 修改內容的函數，這類用得比較少：
void setPage (Page page)：設置這個Node對應的Page東西
void setText (String text)：設置文本
void setChildren (NodeList children)：設置子節點列表
6、其他函數：
void doSemanticAction ()：執行這個Node對應的操縱（只有少數Tag有對應的操縱）
Object clone ()：接口Clone的抽象函數。

實際我們用HTMLParser最多的是處理HTML頁面，Filter或Visitor相關的函數是務必的，然后第一類和第二類函數是用得最多的。

第一類函數比較輕易理解，下面用例子說明一下第二類函數。
下面是用於測試的HTML文件：
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<head><meta http-equiv="Content-Type" content="text/html; charset=gb2312"><title>白澤居-www.baizeju.com</title>< /head>
<html xmlns="http://www.w3.org/1999/xhtml">
<body >
<div id="top_main">
<div id="logoindex">

白澤居-www.baizeju.com
<a href="http://www.baizeju.com">白澤居-www.baizeju.com</a>
</div>
白澤居-www.baizeju.com
</div>
</body>
</html>

測試源代碼：
/**
* @author www.baizeju.com
*/
package com.baizeju.htmlparsertester;
import java.io.BufferedReader;
import java.io.InputStreamReader;
import java.io.FileInputStream;
import java.io.File;
import java.net.HttpURLConnection;
import java.net.URL;
import org.htmlparser.Node;
import org.htmlparser.util.NodeIterator;
import org.htmlparser.Parser;

/**
* @author www.baizeju.com
*/
   public class Main {
private static String ENCODE = "GBK";
private static void message( String szMsg ) {
     try{ System.out.println(new String(szMsg.getBytes(ENCODE), System.getProperty("file.encoding"))); }

    catch(Exception e ){}                                  }
public static String openFile( String szFileName ) {
             try {
BufferedReader bis = new BufferedReader(new InputStreamReader(new FileInputStream( new File(szFileName)), ENCODE) );
String szContent="";
  String szTemp;
   while ( ( szTemp = bis.readLine()) != null) {
     szContent+=szTemp+"\n";                    }
     bis.close();
      return szContent;
             }
      catch( Exception e ) {
return "";
}
}

public static void main(String[] args) {
try {
Parser parser = new Parser( (HttpURLConnection) (new URL("http://127.0.0.1:8080/HTMLParserTester.html")).openConnection() );
for (NodeIterator i = parser.elements (); i.hasMoreNodes(); )

{
   Node node = i.nextNode();
   message("getText:"+node.getText());
   message("getPlainText:"+node.toPlainTextString());
   message("toHtml:"+node.toHtml());
   message("toHtml(true):"+node.toHtml(true));
   message("toHtml(false):"+node.toHtml(false));
   message("toString:"+node.toString());
   message("=================================================");
   }
}
catch( Exception e ) {
System.out.println( "Exception:"+e );
                            }
   }
}

輸出結果：
getText:!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"
getPlainText:
toHtml:<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
toHtml(true):<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
toHtml(false):<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
toString:Doctype Tag : !DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd; begins at : 0; ends at : 121
=================================================
getText:
getPlainText:
toHtml:
toHtml(true):
toHtml(false):
toString:Txt (121[0,121],123[1,0]): \n
=================================================
getText:head
getPlainText:白澤居-www.baizeju.com
toHtml:<head><meta http-equiv="Content-Type" content="text/html; charset=gb2312"><title>白澤居-www.baizeju.com</title>< /head>
toHtml(true):<head><meta http-equiv="Content-Type" content="text/html; charset=gb2312"><title>白澤居-www.baizeju.com</title>< /head>
toHtml(false):<head><meta http-equiv="Content-Type" content="text/html; charset=gb2312"><title>白澤居-www.baizeju.com</title>< /head>
toString:HEAD: Tag (123[1,0],129[1,6]): head
Tag (129[1,6],197[1,74]): meta http-equiv="Content-Type" content="text/html; ...
Tag (197[1,74],204[1,81]): title
Txt (204[1,81],223[1,100]): 白澤居-www.baizeju.com
End (223[1,100],231[1,108]): /title
End (231[1,108],238[1,115]): /head

=================================================
getText:
getPlainText:
toHtml:
toHtml(true):
toHtml(false):
toString:Txt (238[1,115],240[2,0]): \n
=================================================
getText:html xmlns="http://www.w3.org/1999/xhtml"
getPlainText:
白澤居-www.baizeju.com
白澤居-www.baizeju.com
白澤居-www.baizeju.com
toHtml:<html xmlns="http://www.w3.org/1999/xhtml">
<body >
<div id="top_main">
<div id="logoindex">

白澤居-www.baizeju.com
<a href="http://www.baizeju.com">白澤居-www.baizeju.com</a>
</div>
白澤居-www.baizeju.com
</div>
</body>
</html>
toHtml(true):<html xmlns="http://www.w3.org/1999/xhtml">
<body >
<div id="top_main">
<div id="logoindex">

白澤居-www.baizeju.com
<a href="http://www.baizeju.com">白澤居-www.baizeju.com</a>
</div>
白澤居-www.baizeju.com
</div>
</body>
</html>
toHtml(false):<html xmlns="http://www.w3.org/1999/xhtml">
<body >
<div id="top_main">
<div id="logoindex">

白澤居-www.baizeju.com
<a href="http://www.baizeju.com">白澤居-www.baizeju.com</a>
</div>
白澤居-www.baizeju.com
</div>
</body>
</html>
toString:Tag (240[2,0],283[2,43]): html xmlns="http://www.w3.org/1999/xhtml"
Txt (283[2,43],285[3,0]): \n
Tag (285[3,0],292[3,7]): body
Txt (292[3,7],294[4,0]): \n
Tag (294[4,0],313[4,19]): div id="top_main"
Txt (313[4,19],316[5,1]): \n\t
Tag (316[5,1],336[5,21]): div id="logoindex"
Txt (336[5,21],340[6,2]): \n\t\t
Rem (340[6,2],351[6,13]): 這是注釋
Txt (351[6,13],376[8,0]): \n\t\t白澤居-www.baizeju.com\n
Tag (376[8,0],409[8,33]): a href="http://www.baizeju.com"
Txt (409[8,33],428[8,52]): 白澤居-www.baizeju.com
End (428[8,52],432[8,56]): /a
Txt (432[8,56],435[9,1]): \n\t
End (435[9,1],441[9,7]): /div
Txt (441[9,7],465[11,0]): \n\t白澤居-www.baizeju.com\n
End (465[11,0],471[11,6]): /div
Txt (471[11,6],473[12,0]): \n
End (473[12,0],480[12,7]): /body
Txt (480[12,7],482[13,0]): \n
End (482[13,0],489[13,7]): /html

=================================================
對付第一個Node的內容，對應的就是第一行<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">，這個比較好理解。
從這個輸出結果中，也可以看出內容的樹狀結構。或者說是樹林結構。在Page內容的第一層Tag，如DOCTYPE，head和html，分別形成了一個最高層的Node節點（很多人可能對第二個和第四個Node的內容有點希罕。實際上這兩個Node就是兩個換行標記。 HTMLParser把HTML頁面內容中的所有換行，空格，Tab等都轉換成了相應的Tag，所以就出現了這樣的Node。雖然內容少但是級別高，呵呵）
getPlainTextString是把用戶可以看到的內容都包括了。有趣的有兩點，一是<head>標簽中的Title內容是在 plainText中的，可能在標題中可見的也算可見吧。

另外就是象前面說的，HTML內容中的換行符什么的，也都成了plainText，這個邏輯上似乎有點問題。
另外可能大眾發覺toHtml，toHtml(true)和toHtml(false)的結果沒什么區別。實際也是這樣的，假如跟蹤HTMLParser 的源代碼就可以發覺，Node的子類是AbstractNode，其中實現了toHtml()的源代碼，直接挪用toHtml(false)，而 AbstractNode的三個子類RemarkNode，TagNode和TextNode中，toHtml(boolean verbatim)的實現中，都沒有處理verbatim參數，所以三個函數的結果是一模一樣的。假如你不需要實現你自己的什么特別處理，簡單使用 toHtml就可以了。
HTML的Node類繼續關系如下圖（這個是從另外文章Copy的）：

AbstractNodes是Node的直接子類，也是一個抽象類。它的三個直接子類實現是

RemarkNode，用於留存注釋。在輸出結果的 toString局部中可以看到有一個"Rem (345[6,2],356[6,13]): 這是注釋"，就是一個RemarkNode。

TextNode也很簡單，就是用戶可見的文字信息。

TagNode是最紛亂的，包括了HTML語言中的所有標簽，並且可以擴展（擴展 HTMLParser 對自界說標簽的處理能力）。

TagNode包括兩類，一類是簡單的Tag，實際就是不克包括其他Tag的標簽，只能做葉子節點。另一類是 CompositeTag，就是可以包括其他Tag，是分支節點

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 【HtmlParser】HtmlParser使用【java】【HtmlParser】HtmlParser使用 Java解析HTML之HTMLParser使用與詳解 HtmlParser的使用-爬蟲學習（三） HtmlParser應用,使用Filter從爬取到的網頁中獲取需要的內容基於htmlparser實現網頁內容解析 HTMLParser和BeautifulSoup使用入門和總結使用HtmlParser解析HTML (C#版) Python3.5.1 下使用HTMLParser報錯使用 Python 模塊—— HTMLParser 解析 HTML 文檔元素