1. 最基本的爬蟲~爬蟲簡單入門教程


一、什么是網絡爬蟲?

  信息時代,每天我們都在上網,每天我們都在瀏覽器上訪問網站,我們打開一個網頁,接着又跳轉到另一個網頁,看到喜歡的內容,或者是一段幽默的句子,或者是一張美女的圖片,我們會選擇將其保存下來,當數量很多的時候,我們就會選擇用程序來實現這樣一個過程,實現自動瀏覽網頁,自動根據我們的要求,保存我們想要的數據。於是,爬蟲就應運而生了。所以,簡單來說,爬蟲就是實現網頁自動瀏覽,數據自動保存,根據我們的需要進行自動化瀏覽器的操作或者自動化測試的這樣一種程序。至於為啥要叫爬蟲,因為互聯網是一張很大的“蜘蛛網",爬蟲就好像是一只蜘蛛在網上爬來爬去。當然,這些完全是我自己的理解,你當作是一段文字來看,並非嚴謹的定義,爬蟲的范疇,越來越大!

二、需要哪些知識來寫爬蟲?

  1.Http協議:簡單而言,就是客戶端向服務器發出一條Http請求,服務器收到請求之后會返回一些數據給客戶端,然后客戶端再對這些數據進行解析和處理。(其實一個瀏覽器的工作原理也是如此)推薦教程:《計算機網絡自頂向下方法》鏈接:http://pan.baidu.com/s/1eRHC0lc 密碼:cc55

  2.Html:網頁的編寫,超文本標記語言,要求能看懂一些網頁源代碼

  3.正則表達式:完整的字符串規則,查找、替換等,推薦學習:正則表達式30分鍾入門教程

  4.一門編程語言:能寫爬蟲的語言很多,看自己的喜好,Python、C#、Java是我比較推薦的,當然C/C++也是可以的,需要自己構造協議,推薦高手使用,運行效率很高,開發起來復雜。其實寫爬蟲現在python比較多了,因為他的開發效率比較高,然后運行時候其實不需要很高的效率,有時候還需要自己控制爬取網站的速度,你想啊,你的爬蟲肯定比普通瀏覽器訪問快了很多吧,真的讓人懷疑啊。所以Python是首選,熟悉Java和C#寫爬蟲也很好,C推薦大牛使用。

三、一段簡單的偽代碼:

1.構造Http請求協議,包括網址等信息封裝

2.發送htttp請求,服務器返回http報文

3.對接受到的報文進行下一步解析處理

四、一段Python代碼:代碼加運行結果截圖

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM