我的第一個爬蟲程序:利用Python抓取網頁上的信息


題外話

我第一次聽說Python是在大二的時候,那個時候C語言都沒有學好,於是就沒有心思學其他的編程語言。現在,我的畢業設計要用到爬蟲技術,在網上搜索了一下,Python語言在爬蟲技術這方面獲得一致好評。

所以從昨天開始就在網上查找各種Python爬蟲小程序的源碼,可是一天過去了,不僅沒有寫出一個簡單的爬蟲程序,反而對Python要引入的各種包和語法越來越迷糊了。去菜鳥教程一看,Python語言相對來講還是蠻復雜的(雖然它的語法很簡單,但是對於初學者,很多封裝在一個包里的東西都非常陌生),我惡補了一下Python的語法,然后又開始在網上搜尋各種教程,總之把別人寫的爬蟲入門級程序都敲了一遍,可是還是無一奏效,有各種各樣的錯誤。

可是,今天發現一篇博客,博主很細心的講了最簡單的爬蟲有哪些步驟,用到哪些包,包括源碼都一句一句進行了分析,於是我的第一個爬蟲程序就成功了。下面分享一下這位博主的博客,並寫下自己的感受。

博客地址:Python入門(一):爬蟲基本結構&簡單實例

 

我的實踐

下面這張圖片就是我按照那位博主的代碼,得到的結果。雖然過程中出了一點語法錯誤(完全是我自己的失誤),但結果還是成功的獲得了網頁上的數據,還進行了篩選,並答應了出來。當然打出來的數據有很多,我只截了一小部分。大家看到的最后一個>>>后面的語句for循環語句塊,就是將要進行迭代並打印迭代器的內容,這里就不放圖了。

最后的結果就是,所有人的數據都打印出來了。

我的感受就是:Python能做很多事情,搜索引擎就是很大程度上利用了爬蟲程序。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM