新闻类网站的通用爬虫--GNE

本文转载自查看原文 2020-01-03 16:09 1527 爬虫

GNE（GeneralNewsExtractor）是一个通用新闻网站正文抽取模块，输入一篇新闻网页的 HTML，输出正文内容、标题、作者、发布时间、正文中的图片地址和正文所在的标签源代码。GNE在提取今日头条、网易新闻、游民星空、观察者网、凤凰网、腾讯新闻、ReadHub、新浪新闻等数百个中文新闻网站上效果非常出色，几乎能够达到100%的准确率。

使用方式非常简单：

from gne import GeneralNewsExtractor

extractor = GeneralNewsExtractor()
html = '网站源代码'
result = extractor.extract(html)
print(result)

　　扫描公众号查看原文

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 GNE: 4行代码实现新闻类网站通用爬虫新闻类爬虫库：Newspaper 新闻类网页正文通用抽取器新闻类网站rss接口的编写心得抓取新闻网站：异步爬虫实现的流程和细节 vue+mintUI搭建移动端新闻类网站 nodejs实现新闻爬虫新浪滚动新闻爬虫代码基于Scrapy框架的Python新闻爬虫某新闻网站的爬取