与BeautifulSoup一样强的SimplifiedDoc，专为html抽取而生

本文转载自查看原文 2019-12-05 18:03 430

在Python中，说到html解析，很多人都会推荐使用BeautifulSoup。BeautifulSoup确实是一款功能强大，使用比较简单的html解析器。但是这里要讲的SimplifiedDoc一样是使用简单功能强大且专为html抽取而生的。这里说的抽取和解析的意思有点不同，解析是把字符串html 解析成对象，抽取是将html中的有用数据取出来。也就是说SimplifiedDoc重点不在解析，而是抽取出用户想要的数据。通过下面的例子，大家也许会能明白这一点。
首先是安装pip install simplified-scrapy,这个库同时支持Python2和Python3。
安装后，可以体验一下：

from simplified_scrapy.simplified_doc import SimplifiedDoc doc = SimplifiedDoc('<p class="test">Hello</p>') print(doc.getElementByTag('p'))

将html标签生成为字典返回，运行结果如下

{'class': 'test', 'tag': 'p', 'html': 'Hello'}

上面是一个简单的开胃小菜，其它的菜咱们慢慢来。

html = """ <html><head><title>The Dormouse's story</title></head> <body> <p class="title" name="dromouse" other="test"><b>The Dormouse's story</b></p> <p class="story">Once upon a time there were three little sisters; and their names were <a href="http://example.com/elsie" class="sister" id="link1"><!-- Elsie --></a>, <a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and <a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>; and they lived at the bottom of a well.</p> <p class="story">...</p> </body> """ doc = SimplifiedDoc(html) print (doc.title) print (doc.title.text) print (doc.head) print (doc.head.title)

用法和BeautifulSoup有点像，但结果不同，这里返回的是字典

{'tag': 'title', 'html': "The Dormouse's story"} The Dormouse's story {'tag': 'head', 'html': "<title>The Dormouse's story</title>"} {'tag': 'title', 'html': "The Dormouse's story"}

如果想抽取里面的所有链接数据，如下：

doc = SimplifiedDoc(html) print (doc.getElementsByTag('a'))

因为是专为抽取而生，链接数据必须要特殊照顾，还可以用下面的方式取到。如果这时传入当前页面的链接地址，返回的数据会自动把相对路径转为全路径。

doc = SimplifiedDoc(html) print (doc.listA())

一个标签可能有多个属性，比如id，class等，还有内部等html标签。其实这些数据都在返回的对象里了。

doc = SimplifiedDoc(html) print (doc.p)

运行结果如下

{'class': 'title', 'name': 'dromouse', 'tag': 'p', 'html': "<b>The Dormouse's story</b>"}

如果想要获取到去掉html标签的文本数据，可以直接调用text属性，虽然返回的字典中没有这个属性。

doc = SimplifiedDoc(html) print (doc.p.text)

运行结果如下

The Dormouse's story

对嵌套数据的处理，例子如下

from simplified_scrapy.simplified_doc import SimplifiedDoc html = """ <body> <article> <div>this is noise</div> <h1>this is title</h1> <div>this is content</div> </article> </body> """ doc = SimplifiedDoc(html) print (doc.body.article.h1) print (doc.h1)

上面的两行输出的结果是一样，在使用中，我们尽量选择短的路径，提高解析速度。article中有两个div，如果我们想要第二个div，该怎么做呢。这两个div标签中都没有属性数据，如果有属性数据，我们可以根据属性来区分。这里我们可以根据序号来获取，如下：

doc = SimplifiedDoc(html) print (doc.article.getElementsByTag('div')[1])

如果干扰的div数量不确定时，这种办法就不可用了。上面说了，SimplifiedDoc是为抽取而生的，与BeautifulSoup的区分就在这里了。我们可以设定起止位置进行抽取。这里我们要抽取的数据在h1标签之后，就可以用下面的方式去取。

doc = SimplifiedDoc(html) print (doc.article.getElementByTag('div',start='<h1>'))

SimplifiedDoc中的每个抽取方法，都包含三个参数(start,end,before)，在适当的时候可以处理其它工具不容易抽取的数据。

如果h1标签上面只有一个干扰div，我们想获取article标签内的所有数据，我们还可以使用removeElement方法：

doc = SimplifiedDoc(html) print (doc.article.removeElement('div'))

运行结果如下：

{'tag': 'article', 'html': '<h1>this is title</h1><div>this is content</div>'}

对于SimplifiedDoc，还有其它的技巧需要自己去探索了。

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 专为webkit内核而生的javascript库mango正式发布别再用 Redis List 实现消息队列了，Stream 专为队列而生 HTML抽取工具Jsoup 【Python】 html解析BeautifulSoup python 使用 BeautifulSoup 解析html Modernizr.js:为HTML5和CSS3而生！ [学习]用python的BeautifulSoup分析html 使用BeautifulSoup模块解析HTML python爬虫之BeautifulSoup的HTML解析 python爬虫-html解析器beautifulsoup