基本流程:
-
准備工作:(通過瀏覽器查看分析目標網頁,學習編程基礎規范)
-
獲取數據:(通過HTTP庫向目標站點發起請求,請求可以包含額外的header等信息,如果服務器能正常響應,會得到一個Response,便是所要獲取的頁面內容)
-
解析內容:(得到的內容可能是HTML、json等格式,可以用頁面解析庫、正則表達式等進行解析)
-
保存數據:(保存形式多樣,可以存為文本,也可以保存到數據庫,或者保存特定格式的文件)
爬蟲初識:
-
按照一定的規則,自動抓取互聯網信息的程序或者腳本,只要能通過瀏覽器訪問的數據基本都可以通過爬蟲獲取
-
模擬瀏覽器打開網頁,獲取網頁中我們想要的那部分數據
爬蟲常用的工具包:
# 解析網頁
from bs4 import BeautifulSoup as bf # 正則表達式
import re # Excel表格操作
import xlwt # 獲取URL得到html文件
import urllib.request as req # 進行SQLite數據庫操作
import sqlite3
Python路徑:
# 相對路徑,../表示定位到上一級目錄
path1 = "../excel/hello.txt"
# 相對路徑,當前目錄下尋找
path2 = "hello.txt"
# 絕對路徑,r""表示不轉義字符
path3 = r"C:\Users\a最簡單\Desktop\hello.txt"
# 換成/也行,連轉義字符都不用考慮了
path4 = "C:/Users/a最簡單/Desktop/hello.txt"