Python網絡爬蟲的基本流程與准備


基本流程:
  • 准備工作:(通過瀏覽器查看分析目標網頁,學習編程基礎規范)
  • 獲取數據:(通過HTTP庫向目標站點發起請求,請求可以包含額外的header等信息,如果服務器能正常響應,會得到一個Response,便是所要獲取的頁面內容)
  • 解析內容:(得到的內容可能是HTML、json等格式,可以用頁面解析庫、正則表達式等進行解析)
  • 保存數據:(保存形式多樣,可以存為文本,也可以保存到數據庫,或者保存特定格式的文件)
 

 
爬蟲初識:
  • 按照一定的規則,自動抓取互聯網信息的程序或者腳本,只要能通過瀏覽器訪問的數據基本都可以通過爬蟲獲取
  • 模擬瀏覽器打開網頁,獲取網頁中我們想要的那部分數據

 
爬蟲常用的工具包:
# 解析網頁
from bs4 import BeautifulSoup as bf # 正則表達式
import re # Excel表格操作
import xlwt # 獲取URL得到html文件
import urllib.request as req # 進行SQLite數據庫操作
import sqlite3

 


 
Python路徑:
# 相對路徑,../表示定位到上一級目錄
path1 = "../excel/hello.txt"

# 相對路徑,當前目錄下尋找
path2 = "hello.txt"

# 絕對路徑,r""表示不轉義字符
path3 = r"C:\Users\a最簡單\Desktop\hello.txt"

# 換成/也行,連轉義字符都不用考慮了
path4 = "C:/Users/a最簡單/Desktop/hello.txt"

 


 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM