# Python爬蟲(開課吧學習總結)


Python爬蟲(開課吧學習總結)

1.爬蟲入門

什么是爬蟲:使用python代碼模擬用戶批量的發送網絡請求,批量地獲取數據

http:當用戶在地址欄中輸入了網址,這個發送網絡請求的過程就是一個http,

get:不安全,明文傳輸,參數的長度是有限制的。

post:比較安全,數據整體沒有長度限制,所以可以進行文件上傳。

還有delete,put,head請求方法

發送網絡請求(可以攜帶數據或者不攜帶數據)

GET將數據放到了參數里面。

post將數據放到了請求頭里面

返回的數據

General:常規 Request URL:請求URL地址 Request Method:請求方法 Status Code:狀態代碼 Remote Address:遠程站點地址 Referrer Policy:引用站點策略

請求頭 Referer:標志這個請求是從哪里過來的,比如我們從想從A跳轉到B,referer就是A,

DNS:域名解析服務商

爬蟲的分類: 通用爬蟲 聚焦爬蟲

robots.txt:是否允許其他爬蟲(通用爬蟲)爬取某些內容,像百度,谷歌,微軟瀏覽器都是采用通用爬蟲,robots.txt就是用來顯示通用爬蟲的,


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM