Python爬蟲(開課吧學習總結)
1.爬蟲入門
什么是爬蟲:使用python代碼模擬用戶批量的發送網絡請求,批量地獲取數據
http:當用戶在地址欄中輸入了網址,這個發送網絡請求的過程就是一個http,
get:不安全,明文傳輸,參數的長度是有限制的。
post:比較安全,數據整體沒有長度限制,所以可以進行文件上傳。
還有delete,put,head請求方法
發送網絡請求(可以攜帶數據或者不攜帶數據)
GET將數據放到了參數里面。
post將數據放到了請求頭里面
返回的數據
General:常規 Request URL:請求URL地址 Request Method:請求方法 Status Code:狀態代碼 Remote Address:遠程站點地址 Referrer Policy:引用站點策略
請求頭 Referer:標志這個請求是從哪里過來的,比如我們從想從A跳轉到B,referer就是A,


DNS:域名解析服務商
爬蟲的分類: 通用爬蟲 聚焦爬蟲
robots.txt:是否允許其他爬蟲(通用爬蟲)爬取某些內容,像百度,谷歌,微軟瀏覽器都是采用通用爬蟲,robots.txt就是用來顯示通用爬蟲的,

