通過xpath獲取html中的特定標簽

本文轉載自查看原文 2012-01-16 21:24 4212 JavaSe/ 代碼積累

package nekohtml;

import java.io.IOException;

import javax.xml.transform.TransformerException;
import org.apache.xpath.XPathAPI;
import org.cyberneko.html.parsers.DOMParser;
import org.w3c.dom.Document;
import org.w3c.dom.NodeList;
import org.xml.sax.SAXException;

public class NekoHtmlAndXPath {
	// 通過url，將相應的html解析為DOM文檔
	public static Document getDocument(String url) {
		DOMParser parser = new DOMParser();
		try {
			parser.parse(url);
		} catch (SAXException e) {
			e.printStackTrace();
		} catch (IOException e) {
			e.printStackTrace();
		}
		Document doc = parser.getDocument();
		return doc;
	}

	// 通過XPath定位具體的節點
	public static NodeList getExactNode(Document doc, String xp) {
		NodeList list = null;
		try {
			list = XPathAPI.selectNodeList(doc, xp);
		} catch (TransformerException e) {
			e.printStackTrace();
		}
		return list;
	}

	public static void main(String[] args) {
		String baidu = "http://www.baidu.com/";
		String bPath = "//HTML//BODY//DIV[2]//P//MAP//AREA";

		String yyt = "http://www.yinyuetai.com/mv/all?page=1";
		String yPath = "/HTML/BODY/DIV[6]/DIV/DIV[2]/DIV[2]/DIV[3]/UL/LI/DIV[2]/H3/A";

		// 將指定的頁面解析為DOM文檔
		Document doc = getDocument(yyt);
		// 根據xpath獲得指定的節點
		NodeList list = getExactNode(doc, yPath);
		System.out.println("符合條件的結點個數為：" + list.getLength());
		for (int i = 0; i < list.getLength(); i++) {
			System.out.println("獲取的節點屬性為："
					+ list.item(i).getAttributes().getNamedItem("title"));
		}
	}
}

用到的jar包：xalan.jar；xercesImpl.jar；nekohtml.jar。

獲取標簽的XPath用到了firebug，有的時候需要做一些轉換，因為firebug把html轉換成了標准的DOM，所以會有極個別的xpath有點小問題。比如說可能會加上tbody標簽，稍作改動即可。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 【爬蟲】使用xpath與lxml移除特定標簽 c# 取出特定標簽的內容去除html標簽 Android 獲取html中指定標簽 .NET Core 反射獲取所有控制器及方法上特定標簽 xpath獲取標簽對本身含內容, 獲取html內容【爬蟲】在使用xpath時，排除指定標簽 js正則去除html標簽,保留指定標簽利用BeautifulSoup去除HTML指定標簽和去除注釋解析xpath獲取到的標簽 java獲取xml文件指定標簽中值