R语言XML包的数据抓取

本文转载自查看原文 2015-09-29 16:50 2449

htmlParse 函数

htmlParse加抓HTML页面的函数。

url1<-"http://www.caixin.com/"
url<-htmlParse(url1,encoding="UTF-8")

但是有的网站会出现报错。例如淘宝，错误信息为：

Warning message:
XML content does not seem to be XML: 'https://www.taobao.com/'

原因为htmlParse可以抓取http的页面，不能抓取https的页面
getNodeSet函数

getNodeSet获取适当信息节点的信息

//表示任意个HMTL嵌套标签 *表示任意的HTML标签 /表示下一级标签

xpath<-"//meta[@name]"

test<-getNodeSet(url,xpath)

xmlValue函数

xmlValue函数用于读取信息节点的内容

xmlValue(test[[1]])

结果为无

xmlGetAttr函数

xmlGetAttr函数用于读取信息节点的属性

xmlGetAttr(test[[1]],'name')

结果为"keywords"

问题遗留：1）xml包不能加载https。2）有些抓取不出来，例如span后的数据。

例如

url1<-"http://www.amazon.cn/gp/product/B00C93NHHY/ref=s9_simh_gw_p421_d0_i1?pf_rd_m=A1AJ19PSB66TGU&pf_rd_s=center-3&pf_rd_r=10TJ5625EJ46C17SN3ZN&pf_rd_t=101&pf_rd_p=58223152&pf_rd_i=899254051"

url<-htmlParse(url1,encoding="UTF-8")

xpath<-"//span[@id='priceblock_ourprice']"

test<-getNodeSet(url,xpath)

却抓取不出他的单价。（初学数据抓取）

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 R语言XML格式数据导入与处理 R语言caret包的学习（三）--数据分割 R语言-数据整形之plyr包 R语言-数据整形之dplyr包 R语言-数据整形之reshape2包 r语言包说明 R语言——pheatmap包 R语言caret包的学习（一）--数据预处理 R语言之数据处理常用包 R语言data.table包fread读取数据