python爬蟲---污言污語網站數據采集

本文轉載自查看原文 2021-12-23 15:15 70426 爬蟲/ python

代碼：

import requests
from lxml import etree

headers = {
    "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.110 Safari/537.36 Edg/96.0.1054.62"
}


def get_text():
    count = 0
    while True:
        with open("nihaowua.txt", "a") as file:
            resp = requests.get("https://www.nihaowua.com/", headers=headers, timeout=10).text
            html = etree.HTML(resp)
            content = html.xpath("//section/div/*/text()")[0]
            file.write(content + "\n")
            count += 1


get_text()

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 python 之爬蟲數據采集入門數據采集，python爬蟲常見的數據采集與保存、基於scrapy爬蟲的天氣數據采集(python) 數據分析實戰（8-10）-數據采集簡介&八爪魚采集工具&python爬蟲 Python3爬蟲基礎實戰篇之機票數據采集爬蟲數據采集技術趨勢－智能化解析網站流量數據采集環境部署及實現(埋點) 工業數據采集基於Java的數據采集（一）基於Java的數據采集（二）