如何開始寫你的第一個python腳本——簡單爬蟲入門！

本文轉載自查看原文 2018-06-14 19:28 1870 python/ python基礎/ python學習/ python爬蟲/ python隨筆

好多朋友在入門python的時候都是以爬蟲入手，而網絡爬蟲是近幾年比較流行的概念，特別是在大數據分析熱門起來以后，學習網絡爬蟲的人越來越多，哦對，現在叫數據挖掘了！

其實，一般的爬蟲具有2個功能：取數據和存數據！好像說了句廢話。。。

而從這2個功能拓展，需要的知識就很多了：請求數據、反爬處理、頁面解析、內容匹配、繞過驗證碼、保持登錄以及數據庫等等相關知識，今天我們就來說說做一個簡單的爬蟲，一般需要的步驟！

存數據

先說存數據，是因為在初期學習的時候，接觸的少，也不需要太過於關注，隨着學習的慢慢深入，我們需要保存大批量的數據的時候，就需要去學習數據庫的相關知識了！這個我們隨后開篇單獨說明。

初期，我們抓到需要的內容后，只需要保存到本地，無非保存到文檔、表格（excel）等等幾個方法，這里大家只需要掌握with語句就基本可以保證需求了。大概是這樣的：

with open（路徑以及文件名，保存模式） as f： f.write（數據） #如果是文本可直接寫入，如果是其他文件，數據為二進制模式更好

當然保存到excel表格或者word文檔需要用到 xlwt庫（excel）、python-docx庫（word），這個在網上很多，大家可以自行去學習。

取數據

啰嗦那么多，終於到正題，怎么來抓取我們想要的數據呢？我們一步步的來！

一般所謂的取網頁內容，指的是通過Python腳本實現訪問某個URL地址(請求數據)，然后獲得其所返回的內容（HTML源碼，Json格式的字符串等）。然后通過解析規則（頁面解析），分析出我們需要的數據並取（內容匹配）出來。

在python中實現爬蟲非常方便，有大量的庫可以滿足我們的需求，比如先用requests庫取一個url（網頁）的源碼

import requests #導入庫 url = '你的目標網址' response = requests.get(url) #請求數據 print(response.text) #打印出數據的文本內容

這幾行代碼就可以獲得網頁的源代碼，但是有時候這里面會有亂碼，為什么呢？

因為中文網站中包含中文，而終端不支持gbk編碼，所以我們在打印時需要把中文從gbk格式轉為終端支持的編碼，一般為utf-8編碼。

所以我們在打印response之前，需要對它進行編碼的指定（我們可以直接指定代碼顯示的編碼格式為網頁本身的編碼格式，比如utf-8，網頁編碼格式一般都在源代碼中的<meta>標簽下的charset屬性中指定）。加上一行即可

response.encode = 'utf-8' #指定編碼格式

至此，我們已經獲取了網頁的源代碼，接下來就是在亂七八糟的源代碼中找到我們需要的內容，這里就需要用到各種匹配方式了，常用的幾種方式有：正則表達式（re庫），bs4（Beautifulsoup4庫）,xpath(lxml庫)！

建議大家從正則開始學習，最后一定要看看xpath，這個在爬蟲框架scrapy中用的很多！

通過各種匹配方式找到我們的內容后（注意：一般匹配出來的是列表），就到了上面所說的存數據的階段了，這就完成了一個簡單的爬蟲！

當然了，在我們具體寫代碼的時候，會發現很多上面沒有說到的內容，比如

等等，這些我們慢慢來研究！

總之，學習本身是一個漫長的過程，我們需要不斷的練習來增強我們的學習興趣，以及學到更扎實的知識！大家加油！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 《用python寫網絡爬蟲》編寫第一個網絡爬蟲 Python 爬蟲3——第一個爬蟲腳本的創建第一個用python3寫的爬蟲小例子 python-入門的第一個爬蟲例子 python爬蟲（二）——第一個爬蟲程序 python爬蟲__第一個爬蟲程序第一個python爬蟲程序我的第一個Python爬蟲——談心得 python寫第一個網頁第一個python小腳本