一、什么是網頁解析器
1、網頁解析器名詞解釋
首先讓我們來了解下,什么是網頁解析器,簡單的說就是用來解析html網頁的工具,准確的說:它是一個HTML網頁信息提取工具,就是從html網頁中解析提取出“我們需要的有價值的數據”或者“新的URL鏈接”的工具。
2、網頁解析圖解

二、python 網頁解析器
1、常見的python網頁
常見的python網頁解析工具有:re正則匹配、python自帶的html.parser模塊、第三方庫BeautifulSoup(重點學習)以及lxm庫。
2、常見網頁解析器分類
以上四種網頁解析器,是兩種不同類型的解析器:
(1)模糊匹配
re正則表達式即為字符串式的模糊匹配模式;
(2)結構化解析
BeatufiulSoup、html.parser與lxml為“結構化解析”模式,他們都以DOM樹結構為標准,進行標簽結構信息的提取。()

(3)結構化解析
我們在了解什么是結構化解析之前,需要先了解下什么是DOM樹這個概念。
DOM樹解釋:即文檔對象模型(Document Object Model),其樹形標簽結構,請見下圖。

而所謂結構化解析,就是網頁解析器它會將下載的整個HTML文檔當成一個Doucment對象,然后在利用其上下結構的標簽形式,對這個對象進行上下級的標簽進行遍歷和信息提取操作。
三、BeautifulSoup第三方庫
1、beautifulsoup4 簡介
Beautiful Soup 是一個可以從HTML或XML文件中提取數據的Python第三方庫.它能夠通過你喜歡的轉換器實現慣用的文檔導航,查找,修改文檔的方式.Beautiful Soup會幫你節省數小時甚至數天的工作時間.
2、beautifulsoup4 安裝
(1)安裝方法
我直接啟動cmd命令行運行環境,使用pip管理工具進行安裝,安裝命令如下。
$ pip install beautifulsoup4
(2)安裝測試
安裝完成后,我直接啟動IDLE環境,引入bs4測試其是否安裝成功。
>>>> from bs4 import BeautifulSoup
>>>> import bs4
>>>> print bs4
3、BeautifulSoup 語法
BeautifulSoup使用的一般流程就三步走:
(1) 創建BeautifulSoup對象
(2) 使用BeautifulSoup對象的操作方法find_all 與 find進行解讀搜索。
如:
>>>> soup.find_all('a')
>>>> soup.find(‘a’)
(3) 利用DOM結構標簽特性,進行更為詳細的節點信息提取。


4、使用方法(學習重點)
(1)第一步:創建BeautifulSoup對象(即DOM對象)
# 引入BeautifulSoup庫
>>>> from bs4 import BeatifulSoup # 根據HTML網頁字符串結構創建BeatifulSoup對象。 >>>> soup = BeautifulSoup(html_doc, #HTML文檔字符串 'html.parser', #HTML解析器 from_encoding = 'utf-8' #HTML文檔編碼 )
(2)第二步:搜索節點(find_all,find)
搜索節點方法:
soup.find_all() --- 查找所有符合查詢條件的標簽節點,並返回一個列表。 soup.find() --- 查找符合符合查詢條件的第一個標簽節點。
實例1:搜索所有<a>標簽
>>>> soup.find_all('a')
實例2:查找所有標簽符合標簽名為a,鏈接符合 /view/123.html的節點
1)實現方法1:
>>>> soup.find_all('a', href = '/view/123.html')
2)實現方法2:
>>>> soup.find_all('a', href = re.compile(r'/view/\d+\.html'))
實例3:查找所有標簽為名為a,class屬性為abc,文字為python的節點
>>>> soup.findall('a', class_= 'abc', string = 'python')
(3)第三步:訪問節點信息
比如我們得到節點:<a href = '/view/123.html' class = 'doc_link'> I love Python <a>
1) 獲取節點名稱
>>>> node.name
2)獲取查找到的a節點的href屬性
>>>> node['href'] 或者 >>>> node.get('href')
3)獲取查找到的a節點的字符串內容
>>>> node.get_text()
5、BeautifulSoup 信息提取實例
html_doc = """ <html><head><title>The Dormouse's story</title></head> <body> <p class="title"><b>The Dormouse's story</b></p> <p class="story">Once upon a time there were three little sisters; and their names were <a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>, <a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and <a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>; and they lived at the bottom of a well.</p> <p class="story">...</p> """ # 獲取所有a標簽節點內容 links = BeautifulSoup('a') #查找已經獲取a標簽節點中所有連接 for link in links: pirnt(link.name,link['href'],link.get_text())
