Spider-01-爬蟲介紹

Python 爬蟲的知識量不是特別大，但是需要不停和網頁打交道，每個網頁情況都有所差異，所以對應變能力有些要求

爬蟲准備工作

爬蟲定義：網絡爬蟲（又被稱為網頁蜘蛛，網絡機器人，在FOAF社區中間，更經常的稱為網頁追逐者），是一種按照一定的規則，自動地抓取萬維網信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲
兩大特征
- 能按照作者要求下載數據
- 能自動在網絡上流竄
三大步驟
- 下載網頁
- 提取正確的信息
- 根據一定規則自動跳到另外的網頁上執行上兩步操作
爬蟲分類
- 通用爬蟲：
不分類，比如百度搜索引擎，我們通過百度輸入數據，獲取百度爬蟲從各種網站爬到的數據
- 專用爬蟲（聚焦爬蟲）：
就是我們介紹的，關於某一類的數據，比如說，需要爬智聯招聘網站，某地區的招聘信息
Python網絡包簡介
- Python2.* ：urllib, urllib2, urllib3, httplib, httplib2, requests
- Python3.* ：urllib, urllib3, httplib2, requests
- Python2：urllib, urllib2配合使用，或者requests
- Python3：urllib，requests

- 本筆記學習於圖靈學院python全棧課程 - 本筆記不允許任何個人和組織轉載

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 實用爬蟲-01-檢測爬蟲的 IP 01-爬蟲必備基礎知識 Python爬蟲 01 PyCharm 安裝教程（Windows） python爬蟲--爬蟲介紹 Python爬蟲教程—爬蟲 Python爬蟲教程-30-Scrapy 爬蟲框架介紹 Python爬蟲教程-34-分布式爬蟲介紹【Python爬蟲】01：網絡爬蟲--規則 Python爬蟲-01：爬蟲的概念及分類 python 網絡爬蟲介紹