Python網絡爬蟲的基本流程與准備

本文轉載自查看原文 2020-11-14 21:05 454 Python爬蟲

基本流程：

准備工作：（通過瀏覽器查看分析目標網頁，學習編程基礎規范）

獲取數據：（通過HTTP庫向目標站點發起請求，請求可以包含額外的header等信息，如果服務器能正常響應，會得到一個Response，便是所要獲取的頁面內容）

解析內容：（得到的內容可能是HTML、json等格式，可以用頁面解析庫、正則表達式等進行解析）

保存數據：（保存形式多樣，可以存為文本，也可以保存到數據庫，或者保存特定格式的文件）

案例網址： https://movie.douban.com/top250

爬蟲初識：

按照一定的規則，自動抓取互聯網信息的程序或者腳本，只要能通過瀏覽器訪問的數據基本都可以通過爬蟲獲取
模擬瀏覽器打開網頁，獲取網頁中我們想要的那部分數據

爬蟲常用的工具包：

# 解析網頁
from bs4 import BeautifulSoup as bf # 正則表達式
import re # Excel表格操作
import xlwt # 獲取URL得到html文件
import urllib.request as req # 進行SQLite數據庫操作
import sqlite3

Python路徑：

# 相對路徑，../表示定位到上一級目錄
path1 = "../excel/hello.txt"

# 相對路徑，當前目錄下尋找
path2 = "hello.txt"

# 絕對路徑，r""表示不轉義字符
path3 = r"C:\Users\a最簡單\Desktop\hello.txt"

# 換成/也行，連轉義字符都不用考慮了
path4 = "C:/Users/a最簡單/Desktop/hello.txt"

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Python爬蟲准備——requests和bs4安裝 Python網絡爬蟲(認識爬蟲) 什么是網絡爬蟲？為什么要選擇Python寫網絡爬蟲？ Python——網絡爬蟲一、python網絡爬蟲的實現 python 網絡爬蟲介紹 Python網絡爬蟲練習爬蟲與Python：（一）網絡爬蟲概念篇——1.網絡爬蟲及其作用【Python爬蟲】01：網絡爬蟲--規則 python網絡爬蟲——分布式爬蟲