python通用內容提取庫的使用

本文轉載自查看原文 2022-04-06 02:36 1091 爬蟲

from bluextracter import Extractor

if __name__ == '__main__':
    extacert = Extractor()#實例提取類
    url = 'https://m.huicaiba.com/ask/5426118.html'
    resp = requests.get(url)
    resp.encoding = 'utf-8'#手動設置網頁源碼
    source = resp.text
    extacert.extract(url,source)
    # print('得分:',extacert.score)#得分
    # print('標題:', extacert.title)  # 標題
    # print('文本鏈接比例:',extacert.link_text_ratio)#
    # print('圖片數量:',extacert.img_count)
    # print('內容字數:',extacert.text_count)
    #
    # print('純文本內容:',extacert.clean_text)#純文本內容
    print('html內容:',extacert.format_text)#用html標簽格式化的內容
    # top_node = extacert.top_node  #原始html是一個elem
    # cc = etree.tostring(top_node,encoding='utf-8').decode('utf-8')
    # print(unescape(cc))

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 使用Python自動提取內容摘要 Python 如何提取郵件內容 python 日志內容提取使用 Python 從網頁中提取主要文本內容使用itextpdf提取pdf內容 2、Python 使用Requests庫通用爬取數據操作利用python第三方庫提取PDF文件的表格內容 python提取批量文件內的指定內容 python 正則提取HTml標簽文本內容的 Python 11 提取括號中間的內容