前言 在上一節我們學習了 PhantomJS 的基本用法,歸根結底它是一個沒有界面的瀏覽器,而且運行的是 JavaScript 腳本,然而這就能寫爬蟲了嗎?這又和Python有什么關系?說好的Python爬蟲呢?庫都學完了你給我看這個?客官別急,接下來我們介紹的這個工具,統統解決掉你的疑惑 ...
前言 大家有沒有發現之前我們寫的爬蟲都有一個共性,就是只能爬取單純的html代碼,如果頁面是JS渲染的該怎么辦呢 如果我們單純去分析一個個后台的請求,手動去摸索JS渲染的到的一些結果,那簡直沒天理了。所以,我們需要有一些好用的工具來幫助我們像瀏覽器一樣渲染JS處理的頁面。 其中有一個比較常用的工具,那就是 PhantomJS Full web stackNo browser required Ph ...
2017-02-08 21:50 0 17866 推薦指數:
前言 在上一節我們學習了 PhantomJS 的基本用法,歸根結底它是一個沒有界面的瀏覽器,而且運行的是 JavaScript 腳本,然而這就能寫爬蟲了嗎?這又和Python有什么關系?說好的Python爬蟲呢?庫都學完了你給我看這個?客官別急,接下來我們介紹的這個工具,統統解決掉你的疑惑 ...
前言 你是否覺得 XPath 的用法多少有點晦澀難記呢? 你是否覺得 BeautifulSoup 的語法多少有些慳吝難懂呢? 你是否甚至還在苦苦研究正則表達式卻因為少些了一個點而抓狂呢? 你是否已經有了一些前端基礎了解選擇器卻與另外一些奇怪的選擇器語法混淆了呢? 嗯,那么,前端 ...
前言 之前我們用了 urllib 庫,這個作為入門的工具還是不錯的,對了解一些爬蟲的基本理念,掌握爬蟲爬取的流程有所幫助。入門之后,我們就需要學習一些更加高級的內容和工具來方便我們的爬取。那么這一節來簡單介紹一下 requests 庫的基本用法。 注:Python 版本依然基於 2.7 官方 ...
上一節我們介紹了正則表達式,它的內容其實還是蠻多的,如果一個正則匹配稍有差池,那可能程序就處在永久的循環之中,而且有的小伙伴們也對寫正則表達式的寫法用得不熟練,沒關系,我們還有一個更強大的工具,叫Be ...
上一節我們介紹了正則表達式,它的內容其實還是蠻多的,如果一個正則匹配稍有差池,那可能程序就處在永久的循環之中,而且有的小伙伴們也對寫正則表達式的寫法用得不熟練,沒關系,我們還有一個更強大的工具,叫Be ...
圖片懶加載技術 什么是圖片懶加載技術 圖片懶加載是一種網頁優化技術。圖片作為一種網絡資源,在被請求時也與普通靜態資源一樣,將占用網絡資源,而一次性將整個頁面的所有圖片加載完,將大大增加頁面的首屏加 ...
前面我們介紹了 BeautifulSoup 的用法,這個已經是非常強大的庫了,不過還有一些比較流行的解析庫,例如 lxml,使用的是 Xpath 語法,同樣是效率比較高的解析方法。如果大家對 BeautifulSoup 使用不太習慣的話,可以嘗試下 Xpath。 參考來源 lxml用法 ...
前言 前面我們介紹了 BeautifulSoup 的用法,這個已經是非常強大的庫了,不過還有一些比較流行的解析庫,例如 lxml,使用的是 Xpath 語法,同樣是效率比較高的解析方法。如果大家對 BeautifulSoup 使用不太習慣的話,可以嘗試下 Xpath。 參考來源 lxml用法 ...