小白學 Python 爬蟲(1):開篇


人生苦短,我用 Python

引言

各位同學大家好,好久不見(可能只有一兩天沒見:囧)~~~

先講一件事情,昨天為啥沒更新。

emmmmmmmmm,當然是因為加班啦,快到年底了,公司項目比較忙,最近的更新頻率會有下降,請各位海涵。

廢話不多說,開始今天的正題,從題目大家應該已經猜到了,小編要開始更新一個新的系列《小白學 Python 爬蟲》,介於大家水平參差不齊,建議沒有 Python 基礎第一次接觸的同學先看下小編之前更新的《小白學 Python 系列》,大致了解下 Python 的語法規則以及一些基礎用法。

先自己吹一波水,這個系列小編計划做成長期更新系列,目前 Python 爬蟲涉及到的第三方的類庫有些多,還會有很多有關 web 編程方面的基礎知識,因面向的群體主要是小白,這些內容都需要一一介紹,這會是一個大的系列。額,遠超之前的 Python 基礎。

額,忘了件事兒,再加一句題外話,最近公眾號后台留言有點略多,很多同學的問題來不及回復就被留言沖的看不到了,這里請大家有問題可以添加小編的個人微信:allen_6174(放心加,這個是小編的個人生活微信號,和工作號是分開的)。

算了,順便再打個廣告吧:本爬蟲系列文章后續將於公眾號首發,個人博客站次日同步,第三方博客平台不定期同步,泥萌要不要關注我一下呢?

什么是爬蟲?

不管是作為程序員還是小白,對爬蟲這個詞應該都不陌生,畢竟最近也發生了很多事情,很多人因為某些事情都進去了,具體情況我就不提了,容易被和諧。有想知道的同學可以翻一翻我之前公眾號轉的一篇文章《只因寫了一段爬蟲,公司200多人被抓!》。最近的網絡報道此類的新聞還有很多。

在正式內容開始之前,提醒各位讀者敬畏法律,熱愛生活。

老規矩,先百度一波看看百度釋義:

網絡爬蟲(又稱為網頁蜘蛛,網絡機器人,在FOAF社區中間,更經常的稱為網頁追逐者),是一種按照一定的規則,自動地抓取萬維網信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。

講點接地氣的就是我們把平時使用的網絡看成是一張大蜘蛛網,每個站點看做是這張網上面的一個一個的節點,爬蟲好比是一只蜘蛛,在這張網上面按照一定的或者已經設計好的路線,找到目標節點獲取所需資源。

為什么使用爬蟲

平時我們在上網的時候,看到一些感興趣的網絡資源,可以使用復制黏貼的方式將這些資源下載回來,比如看知乎的時候,一些回答很精彩的高贊回答,數據量小的時候,我們動動鼠標右鍵也就搞定了,但是如果這種數據量非常大,有時候可以大到超出你的想像,再用鼠標右鍵復制黏貼就有些捉襟見肘了。

上圖是博主在用的鼠標,非廣告,型號我就不貼了。

這時,我們就需要勤勞的爬蟲出馬了,爬蟲這種“生物”,可以全天候24小時候不間斷工作,只需提供必要的網絡和電力,就可以一直勤勞的工作下去,讓你解放雙手,再也無需人工使用 CV 大法了。

可以看出,爬蟲非常適合幫我們做兩類事情:

  • 大量數據的提取,在一定規則條件下。
  • 完全自動化,無需人工過多干預。

想像一下,當老板讓你搜索某類信息時,寫一只勤勞的小爬蟲,自己在旁邊泡上一杯清茶,拿起手機開始愉快的玩耍,時不時的看這只爬蟲有沒有完成工作,這場景一下讓我想起了萬惡的資本家壓榨勞動力。

小結

本篇文章為各位同學介紹了爬蟲的基本概念,讓大家對爬蟲有一個大致的了解,以便后續章節的學習。開胃菜吃完了,下一節我們就要開始吃大餐了喲,你准備好了嗎?


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM