小白學 Python 爬蟲（1）：開篇

本文轉載自查看原文 2019-11-21 08:45 295 Python 爬蟲

人生苦短，我用 Python

引言

各位同學大家好，好久不見（可能只有一兩天沒見：囧）~~~

先講一件事情，昨天為啥沒更新。

emmmmmmmmm，當然是因為加班啦，快到年底了，公司項目比較忙，最近的更新頻率會有下降，請各位海涵。

廢話不多說，開始今天的正題，從題目大家應該已經猜到了，小編要開始更新一個新的系列《小白學 Python 爬蟲》，介於大家水平參差不齊，建議沒有 Python 基礎第一次接觸的同學先看下小編之前更新的《小白學 Python 系列》，大致了解下 Python 的語法規則以及一些基礎用法。

先自己吹一波水，這個系列小編計划做成長期更新系列，目前 Python 爬蟲涉及到的第三方的類庫有些多，還會有很多有關 web 編程方面的基礎知識，因面向的群體主要是小白，這些內容都需要一一介紹，這會是一個大的系列。額，遠超之前的 Python 基礎。

額，忘了件事兒，再加一句題外話，最近公眾號后台留言有點略多，很多同學的問題來不及回復就被留言沖的看不到了，這里請大家有問題可以添加小編的個人微信：allen_6174（放心加，這個是小編的個人生活微信號，和工作號是分開的）。

算了，順便再打個廣告吧：本爬蟲系列文章后續將於公眾號首發，個人博客站次日同步，第三方博客平台不定期同步，泥萌要不要關注我一下呢？

不管是作為程序員還是小白，對爬蟲這個詞應該都不陌生，畢竟最近也發生了很多事情，很多人因為某些事情都進去了，具體情況我就不提了，容易被和諧。有想知道的同學可以翻一翻我之前公眾號轉的一篇文章《只因寫了一段爬蟲，公司200多人被抓！》。最近的網絡報道此類的新聞還有很多。

在正式內容開始之前，提醒各位讀者敬畏法律，熱愛生活。

老規矩，先百度一波看看百度釋義：

網絡爬蟲（又稱為網頁蜘蛛，網絡機器人，在FOAF社區中間，更經常的稱為網頁追逐者），是一種按照一定的規則，自動地抓取萬維網信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。

講點接地氣的就是我們把平時使用的網絡看成是一張大蜘蛛網，每個站點看做是這張網上面的一個一個的節點，爬蟲好比是一只蜘蛛，在這張網上面按照一定的或者已經設計好的路線，找到目標節點獲取所需資源。

平時我們在上網的時候，看到一些感興趣的網絡資源，可以使用復制黏貼的方式將這些資源下載回來，比如看知乎的時候，一些回答很精彩的高贊回答，數據量小的時候，我們動動鼠標右鍵也就搞定了，但是如果這種數據量非常大，有時候可以大到超出你的想像，再用鼠標右鍵復制黏貼就有些捉襟見肘了。

上圖是博主在用的鼠標，非廣告，型號我就不貼了。

這時，我們就需要勤勞的爬蟲出馬了，爬蟲這種“生物”，可以全天候24小時候不間斷工作，只需提供必要的網絡和電力，就可以一直勤勞的工作下去，讓你解放雙手，再也無需人工使用 CV 大法了。

可以看出，爬蟲非常適合幫我們做兩類事情：

想像一下，當老板讓你搜索某類信息時，寫一只勤勞的小爬蟲，自己在旁邊泡上一杯清茶，拿起手機開始愉快的玩耍，時不時的看這只爬蟲有沒有完成工作，這場景一下讓我想起了萬惡的資本家壓榨勞動力。

本篇文章為各位同學介紹了爬蟲的基本概念，讓大家對爬蟲有一個大致的了解，以便后續章節的學習。開胃菜吃完了，下一節我們就要開始吃大餐了喲，你准備好了嗎？

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 小白學 Python（1）：開篇小白學 Python 爬蟲（9）：爬蟲基礎小白學 Python 爬蟲（20）：Xpath 進階小白學 Python 爬蟲（8）：網頁基礎小白學 Python 爬蟲（7）：HTTP 基礎小白學 Python 爬蟲（10）：Session 和 Cookies 跟小白學python網絡爬蟲實例3 小白學 Python 爬蟲（34）：爬蟲框架 Scrapy 入門基礎（二）小白學 Python 爬蟲（33）：爬蟲框架 Scrapy 入門基礎（一）小白學爬蟲(二) - 之爬蟲的原理