通过xpath获取html中的特定标签

本文转载自查看原文 2012-01-16 21:24 4212 JavaSe/ 代码积累

package nekohtml;

import java.io.IOException;

import javax.xml.transform.TransformerException;
import org.apache.xpath.XPathAPI;
import org.cyberneko.html.parsers.DOMParser;
import org.w3c.dom.Document;
import org.w3c.dom.NodeList;
import org.xml.sax.SAXException;

public class NekoHtmlAndXPath {
	// 通过url，将相应的html解析为DOM文档
	public static Document getDocument(String url) {
		DOMParser parser = new DOMParser();
		try {
			parser.parse(url);
		} catch (SAXException e) {
			e.printStackTrace();
		} catch (IOException e) {
			e.printStackTrace();
		}
		Document doc = parser.getDocument();
		return doc;
	}

	// 通过XPath定位具体的节点
	public static NodeList getExactNode(Document doc, String xp) {
		NodeList list = null;
		try {
			list = XPathAPI.selectNodeList(doc, xp);
		} catch (TransformerException e) {
			e.printStackTrace();
		}
		return list;
	}

	public static void main(String[] args) {
		String baidu = "http://www.baidu.com/";
		String bPath = "//HTML//BODY//DIV[2]//P//MAP//AREA";

		String yyt = "http://www.yinyuetai.com/mv/all?page=1";
		String yPath = "/HTML/BODY/DIV[6]/DIV/DIV[2]/DIV[2]/DIV[3]/UL/LI/DIV[2]/H3/A";

		// 将指定的页面解析为DOM文档
		Document doc = getDocument(yyt);
		// 根据xpath获得指定的节点
		NodeList list = getExactNode(doc, yPath);
		System.out.println("符合条件的结点个数为：" + list.getLength());
		for (int i = 0; i < list.getLength(); i++) {
			System.out.println("获取的节点属性为："
					+ list.item(i).getAttributes().getNamedItem("title"));
		}
	}
}

用到的jar包：xalan.jar；xercesImpl.jar；nekohtml.jar。

获取标签的XPath用到了firebug，有的时候需要做一些转换，因为firebug把html转换成了标准的DOM，所以会有极个别的xpath有点小问题。比如说可能会加上tbody标签，稍作改动即可。

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 Android 获取html中指定标签 xpath获取标签对本身含内容, 获取html内容【爬虫】在使用xpath时，排除指定标签 js正则去除html标签,保留指定标签获取html元素的XPath路径 C#正则过滤HTML标签并保留指定标签的方法 XPATH怎么获取TITLE中有中文的标签 xpath获取当前标签下的所有文本获取Json中特定的值在freemarker文件中，html标签获取后台的值