新聞類網站的通用爬蟲--GNE

本文轉載自查看原文 2020-01-03 16:09 1527 爬蟲

GNE（GeneralNewsExtractor）是一個通用新聞網站正文抽取模塊，輸入一篇新聞網頁的 HTML，輸出正文內容、標題、作者、發布時間、正文中的圖片地址和正文所在的標簽源代碼。GNE在提取今日頭條、網易新聞、游民星空、觀察者網、鳳凰網、騰訊新聞、ReadHub、新浪新聞等數百個中文新聞網站上效果非常出色，幾乎能夠達到100%的准確率。

使用方式非常簡單：

from gne import GeneralNewsExtractor

extractor = GeneralNewsExtractor()
html = '網站源代碼'
result = extractor.extract(html)
print(result)

　　掃描公眾號查看原文

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 GNE: 4行代碼實現新聞類網站通用爬蟲新聞類爬蟲庫：Newspaper 新聞類網頁正文通用抽取器新聞類網站rss接口的編寫心得抓取新聞網站：異步爬蟲實現的流程和細節 vue+mintUI搭建移動端新聞類網站 nodejs實現新聞爬蟲新浪滾動新聞爬蟲代碼基於Scrapy框架的Python新聞爬蟲某新聞網站的爬取