小白學 Python 爬蟲（9）：爬蟲基礎

本文轉載自查看原文 2019-12-03 08:43 438 Python 爬蟲/ Python

人生苦短，我用 Python

前文傳送門：

小白學 Python 爬蟲（1）：開篇

小白學 Python 爬蟲（2）：前置准備（一）基本類庫的安裝

小白學 Python 爬蟲（3）：前置准備（二）Linux基礎入門

小白學 Python 爬蟲（4）：前置准備（三）Docker基礎入門

小白學 Python 爬蟲（5）：前置准備（四）數據庫基礎

小白學 Python 爬蟲（6）：前置准備（五）爬蟲框架的安裝

小白學 Python 爬蟲（7）：HTTP 基礎

小白學 Python 爬蟲（8）：網頁基礎

爬蟲的核心

什么是爬蟲，講點通俗易懂的，爬蟲就是爬取網頁，從中按照一定規則提取信息，重復以上過程自動化重復完成的程序。

一只爬蟲，第一件事情就是要爬取網頁，這里主要是指獲取網頁的源代碼。在網頁的源代碼里，會含有我們所需要的信息，而我們要做的事情就是從源代碼中將這些信息提取出來。

我們請求網頁的時候， Python 為我們提供了很多庫來做這件事情，比如官方提供的 urllib ，以及第三方提供的 requests 、 Aiohttp 等。

我們可以使用這些庫來發送 HTTP 請求，獲取響應的數據，得到響應之后，我們只需要解析其中 body 部分的數據，就可以獲得網頁的源代碼。

獲取到源代碼以后，我們接下來的工作就是解析源代碼，從中提取出我們需要的數據。

提取數據最基礎也是最常用的是使用正則表達式的方式的，但是這種方式比較復雜，也比較容易出錯，不過不得不說，一個正則表達式寫的非常厲害的人，完全用不着下面的這些解析類庫，這是一個萬能的方法。

悄悄的說一句，小編的正則表達式寫的也不好，才會使用到這些由第三方提供的類庫。

用於提取數據的類庫有 Beautiful Soup 、 pyquery 、 lxml 等等。使用這些庫，我們可以高效快速地從 HTML 中提取網頁信息，如節點的屬性、文本值等。

從源代碼中提取到數據以后，我們會對數據進行保存，這里的保存形式多種多樣，可以直接保存成 txt 、 json 、 Excel 文件等等，也可以保存至數據庫，如 Mysql 、 Oracle 、 SQLServer 、 MongoDB 等等。

抓取的數據格式

一般而言，我們抓取到的都是 HTML 的網頁源代碼，這個是我們看得到的、常規的、直觀的網頁信息。

但是有些信息，並不是直接和 HTML 一起返回至網頁的，會存在各種各樣的 API 接口，這種接口返回的數據現在大多數是 JSON 的格式，也有一些會返回 XML 的數據格式，還會有一些個別的奇葩的接口直接返回程序猿自定義的字符串。這種 API 數據接口就需要具體問題具體分析了。

還有一些信息，比如各大圖片站、視頻站（如抖音、 B站），我們想要爬取的信息是圖片或者視頻，這些信息是已二進制的形式存在的，我們需要將這些二進制的數據爬取下來再進行轉儲。

此外，我們還能抓取到一些資源文件，如 CSS 、 JavaScript 等腳本資源，有的還會有一些 woff 等字體信息。這些信息是一個網頁組成不可或缺的元素，只要瀏覽器能訪問到的，我們都可以將其爬取下來。

現代前端頁面爬取

今天核心內容來了！！！

很多時候，我們使用 HTTP 請求庫爬取網頁源代碼時，爬取到的信息和我們在網頁上看到的信息完全不一樣，只有短短的幾行。

這是因為最近這幾年，前端技術突飛猛進，大量的采用前端模塊化工具來構建前端頁面，比較常用的框架有 Vue 、 React 等等。

導致我們獲取到的網頁只有一個空殼子，例如這種：

<!DOCTYPE html>
<html lang="en" style="background-color: #26282A; height: 100%">
  <head>
    <meta charset="utf-8">
    <meta http-equiv="X-UA-Compatible" content="IE=edge">
    <meta name="viewport" content="width=device-width, initial-scale=1, minimum-scale=1, maximum-scale=1, user-scalable=no">
    <link rel="icon" href="<%= BASE_URL %>favicon.ico">
    <title>演示項目</title>
  </head>
  <style>
    html,
    body,
    #app {
      height: 100%
    }
  </style>
  <body>
    <noscript>
      <strong>We're sorry but xxxxxx doesn't work properly without JavaScript enabled. Please enable it to continue.</strong>
    </noscript>
    <div id="app"></div>
    <!-- built files will be auto injected -->
    <script src=/js/chunk-vendors.84ee7bec.js></script>
    <script src=/js/app.4170317d.js></script>
  </body>
</html>

代碼來源是博主平時做的一些小東西，其中博主已經省略大量引入的 JavaScript。

body 節點里面只有一個 id 為 app 的節點，但是需要注意在 body 節點的最后引入了 JavaScript 文件，它們負責整個網頁的渲染。

在瀏覽器打開這個頁面后，首先會加載這個 HTML 的內容，接着會發現有 JavaScript 的腳本文件加載，獲取到這些腳本文件后，開始執行其中的代碼，而 JavaScript 腳本文件則會修改整個頁面的 HTML 代碼，向其中添加節點，從而完成整個頁面的渲染。

但是當我們使用請求庫去請求這個頁面的時候，只能獲得當前的 HTML 的內容，它並不會去幫我們獲取這個 JavaScript 腳本文件並且幫我們執行這個腳本文件渲染整個 HTML DOM 節點，我們當然也就看不到瀏覽器當中看到的內容。

這也解釋了為什么有時我們得到的源代碼和瀏覽器中看到的不一樣。

當然，遇到這種情況也不要慌，我們還可以使用Selenium、Splash這樣的庫來實現模擬瀏覽器中的 JavaScript 渲染。

后面，我們會慢慢聊這些內容，本文主要先幫各位同學對爬蟲有一個基礎的了解，方便后續的學習。

參考：

https://cuiqingcai.com/5484.html

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。