python 之網頁解析器

本文轉載自查看原文 2017-03-26 14:23 16436 python學習

一、什么是網頁解析器

　　1、網頁解析器名詞解釋

　　首先讓我們來了解下，什么是網頁解析器，簡單的說就是用來解析html網頁的工具，准確的說：它是一個HTML網頁信息提取工具，就是從html網頁中解析提取出“我們需要的有價值的數據”或者“新的URL鏈接”的工具。

　　2、網頁解析圖解

二、python 網頁解析器

　　1、常見的python網頁

　　常見的python網頁解析工具有：re正則匹配、python自帶的html.parser模塊、第三方庫BeautifulSoup(重點學習)以及lxm庫。

　　2、常見網頁解析器分類

　　以上四種網頁解析器，是兩種不同類型的解析器：

　　（1）模糊匹配

　　　　re正則表達式即為字符串式的模糊匹配模式；

　　（2）結構化解析

　　　　BeatufiulSoup、html.parser與lxml為“結構化解析”模式，他們都以DOM樹結構為標准，進行標簽結構信息的提取。（）

　　（3）結構化解析

　　我們在了解什么是結構化解析之前，需要先了解下什么是DOM樹這個概念。

　　DOM樹解釋：即文檔對象模型（Document Object Model），其樹形標簽結構，請見下圖。

　　而所謂結構化解析，就是網頁解析器它會將下載的整個HTML文檔當成一個Doucment對象，然后在利用其上下結構的標簽形式，對這個對象進行上下級的標簽進行遍歷和信息提取操作。

三、BeautifulSoup第三方庫

　　1、beautifulsoup4 簡介

　　Beautiful Soup 是一個可以從HTML或XML文件中提取數據的Python第三方庫.它能夠通過你喜歡的轉換器實現慣用的文檔導航,查找,修改文檔的方式.Beautiful Soup會幫你節省數小時甚至數天的工作時間.

　　2、beautifulsoup4 安裝

　　（1）安裝方法

　　我直接啟動cmd命令行運行環境，使用pip管理工具進行安裝，安裝命令如下。

 $ pip install beautifulsoup4

　　（2）安裝測試

　　安裝完成后，我直接啟動IDLE環境，引入bs4測試其是否安裝成功。

 >>>> from bs4 import BeautifulSoup
 >>>> import bs4
 >>>> print bs4

　　3、BeautifulSoup 語法

　　 BeautifulSoup使用的一般流程就三步走：

　　（1）創建BeautifulSoup對象

　　（2）使用BeautifulSoup對象的操作方法find_all 與 find進行解讀搜索。

　　　　　如：

　　　　　>>>> soup.find_all('a')

　　　　　>>>> soup.find(‘a’)

　　 （3）利用DOM結構標簽特性，進行更為詳細的節點信息提取。

　　4、使用方法（學習重點）

　　（1）第一步：創建BeautifulSoup對象（即DOM對象）

# 引入BeautifulSoup庫
 >>>> from bs4 import BeatifulSoup

# 根據HTML網頁字符串結構創建BeatifulSoup對象。 >>>> soup = BeautifulSoup(html_doc,                      #HTML文檔字符串
                         'html.parser',                  #HTML解析器
                         from_encoding = 'utf-8'         #HTML文檔編碼 
                          )

　　（2）第二步：搜索節點（find_all,find）

　　　　 搜索節點方法：

　　soup.find_all()  --- 查找所有符合查詢條件的標簽節點，並返回一個列表。

　　soup.find() --- 查找符合符合查詢條件的第一個標簽節點。

　　　　實例1：搜索所有<a>標簽

 >>>> soup.find_all('a')

　　　　實例2：查找所有標簽符合標簽名為a，鏈接符合 /view/123.html的節點

　　　　1)實現方法1：

 >>>> soup.find_all('a', href = '/view/123.html')

　　　　2)實現方法2：

 >>>> soup.find_all('a', href = re.compile(r'/view/\d+\.html'))

　　　實例3：查找所有標簽為名為a，class屬性為abc，文字為python的節點　

 >>>> soup.findall('a', class_= 'abc', string = 'python')

　　(3)第三步：訪問節點信息

　　比如我們得到節點：<a href = '/view/123.html' class = 'doc_link'> I love Python <a>

　　　　1) 獲取節點名稱

      >>>> node.name

　　　　2)獲取查找到的a節點的href屬性

　　　　>>>> node['href']

　　　　或者

　　　　>>>> node.get('href')

　　　　3）獲取查找到的a節點的字符串內容

>>>> node.get_text()

　　5、BeautifulSoup 信息提取實例

html_doc = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>

<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>

<p class="story">...</p>
"""

# 獲取所有a標簽節點內容
links = BeautifulSoup('a')

#查找已經獲取a標簽節點中所有連接
for link in links:
    pirnt(link.name,link['href'],link.get_text())

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Python的html解析器設置Python解析器 Python HTML解析器BeautifulSoup(爬蟲解析器) python 解析器的常用options python爬蟲-html解析器beautifulsoup SQL解析器語法解析器！ Python之父新發文，將替換現有解析器 Python爬蟲(十四)_BeautifulSoup4 解析器 Python 之父的解析器系列之五：左遞歸 PEG 語法