原文:Python:網絡爬蟲相當利器

網絡爬蟲,又稱為網頁蜘蛛 WebSpider ,非常形象的一個名字。如果你把整個互聯網想象成類似於蜘蛛網一樣的構造,那么我們這只爬蟲,就是要在上邊爬來爬去,順便獲得我們需要的資源。我們之所以能夠通過百度或谷歌這樣的搜索引擎檢索到你的網頁,靠的就是他們大量的爬蟲每天在互聯網上爬來爬去,對網頁中的每個關鍵詞進行索引,建立索引數據庫。在經過復雜的算法進行排序后,這些結果將按照與搜索關鍵詞的相關度高低,依 ...

2017-11-18 11:51 0 4066 推薦指數:

查看詳情

Python爬蟲利器五之Selenium的用法

前言 在上一節我們學習了 PhantomJS 的基本用法,歸根結底它是一個沒有界面的瀏覽器,而且運行的是 JavaScript 腳本,然而這就能寫爬蟲了嗎?這又和Python有什么關系?說好的Python爬蟲呢?庫都學完了你給我看這個?客官別急,接下來我們介紹的這個工具,統統解決掉你的疑惑 ...

Thu Feb 09 05:51:00 CST 2017 0 81637
Python爬蟲利器:Beautiful Soup

Beautiful Soup 是一個可以從HTML或XML文件中提取數據的Python庫。使用它來處理HTML頁面就像JavaScript代碼操作HTML DOM樹一樣方便。官方中文文檔地址 1. 安裝 1.1 安裝 Beautiful Soup Beautiful Soup3 目前已經停止 ...

Sat Dec 02 19:26:00 CST 2017 0 1324
Python爬蟲利器四之PhantomJS的用法

前言 大家有沒有發現之前我們寫的爬蟲都有一個共性,就是只能爬取單純的html代碼,如果頁面是JS渲染的該怎么辦呢?如果我們單純去分析一個個后台的請求,手動去摸索JS渲染的到的一些結果,那簡直沒天理了。所以,我們需要有一些好用的工具來幫助我們像瀏覽器一樣渲染JS處理的頁面。 其中有一個比較常用 ...

Thu Feb 09 05:50:00 CST 2017 0 17866
Python爬蟲利器六之PyQuery的用法

前言 你是否覺得 XPath 的用法多少有點晦澀難記呢? 你是否覺得 BeautifulSoup 的語法多少有些慳吝難懂呢? 你是否甚至還在苦苦研究正則表達式卻因為少些了一個點而抓狂呢? 你是 ...

Thu Feb 09 05:52:00 CST 2017 0 4392
Python爬蟲利器二之Beautiful Soup的用法

上一節我們介紹了正則表達式,它的內容其實還是蠻多的,如果一個正則匹配稍有差池,那可能程序就處在永久的循環之中,而且有的小伙伴們也對寫正則表達式的寫法用得不熟練,沒關系,我們還有一個更強大的工具,叫Be ...

Thu Jun 29 07:05:00 CST 2017 0 2081
python爬蟲利器Selenium使用詳解

簡介: 用pyhon爬取動態頁面時普通的urllib2無法實現,例如下面的京東首頁,隨着滾動條的下拉會加載新的內容,而urllib2就無法抓取這些內容,此時就需要今天的主角selenium。 ...

Thu Feb 23 09:28:00 CST 2017 0 6659
Python爬蟲利器一之Requests庫的用法

前言 之前我們用了 urllib 庫,這個作為入門的工具還是不錯的,對了解一些爬蟲的基本理念,掌握爬蟲爬取的流程有所幫助。入門之后,我們就需要學習一些更加高級的內容和工具來方便我們的爬取。那么這一節來簡單介紹一下 requests 庫的基本用法。 注:Python 版本依然基於 2.7 官方 ...

Thu Feb 09 05:47:00 CST 2017 0 5382
Python爬蟲利器二之Beautiful Soup的用法

上一節我們介紹了正則表達式,它的內容其實還是蠻多的,如果一個正則匹配稍有差池,那可能程序就處在永久的循環之中,而且有的小伙伴們也對寫正則表達式的寫法用得不熟練,沒關系,我們還有一個更強大的工具,叫Be ...

Thu Feb 09 05:49:00 CST 2017 0 2654
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM