Python爬蟲教程-01-爬蟲介紹


Spider-01-爬蟲介紹

Python 爬蟲的知識量不是特別大,但是需要不停和網頁打交道,每個網頁情況都有所差異,所以對應變能力有些要求

爬蟲准備工作

  • 參考資料
  • 精通Python爬蟲框架Scrapy,人民郵電出版社

基礎知識

  • url, http
  • web前端,html,css,js
  • ajax
  • re,xpath
  • xml

python 爬蟲簡介

  • 爬蟲定義:網絡爬蟲(又被稱為網頁蜘蛛,網絡機器人,在FOAF社區中間,更經常的稱為網頁追逐者),是一種按照一定的規則,自動地抓取萬維網信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲

  • 兩大特征
    - 能按照作者要求下載數據
    - 能自動在網絡上流竄

  • 三大步驟
    - 下載網頁
    - 提取正確的信息
    - 根據一定規則自動跳到另外的網頁上執行上兩步操作

  • 爬蟲分類
    - 通用爬蟲:
    不分類,比如百度搜索引擎,我們通過百度輸入數據,獲取百度爬蟲從各種網站爬到的數據
    - 專用爬蟲(聚焦爬蟲) :
    就是我們介紹的,關於某一類的數據,比如說,需要爬智聯招聘網站,某地區的招聘信息

  • Python網絡包簡介
    - Python2.* :urllib, urllib2, urllib3, httplib, httplib2, requests
    - Python3.* :urllib, urllib3, httplib2, requests
    - Python2:urllib, urllib2配合使用,或者requests
    - Python3:urllib,requests

我的爬蟲筆記


- 本筆記學習於圖靈學院python全棧課程 - 本筆記不允許任何個人和組織轉載


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM