GNE: 4行代碼實現新聞類網站通用爬蟲
GNE(GeneralNewsExtractor)是一個通用新聞網站正文抽取模塊,輸入一篇新聞網頁的 HTML, 輸出正文內容、標題、作者、發布時間、正文中的圖片地址和正文所在的標簽源代碼。GNE在提取今日頭條、網易新聞、游民星空、 觀察者網、鳳凰網、騰訊新聞、ReadHub、新浪新聞等數百 ...
GNE(GeneralNewsExtractor)是一個通用新聞網站正文抽取模塊,輸入一篇新聞網頁的 HTML, 輸出正文內容、標題、作者、發布時間、正文中的圖片地址和正文所在的標簽源代碼。GNE在提取今日頭條、網易新聞、游民星空、 觀察者網、鳳凰網、騰訊新聞、ReadHub、新浪新聞等數百 ...