python爬蟲入門（三）XPATH和BeautifulSoup4

本文轉載自查看原文 2018-02-15 18:06 7927 爬蟲

XML和XPATH

用正則處理HTML文檔很麻煩，我們可以先將 HTML文件轉換成 XML文檔，然后用 XPath 查找 HTML 節點或元素。

XML 指可擴展標記語言（EXtensible Markup Language）
XML 是一種標記語言，很類似 HTML
XML 的設計宗旨是傳輸數據，而非顯示數據
XML 的標簽需要我們自行定義。
XML 被設計為具有自我描述性。
XML 是 W3C 的推薦標准

<?xml version="1.0" encoding="utf-8"?>

<bookstore> 

  <book category="cooking"> 
    <title lang="en">Everyday Italian</title>  
    <author>Giada De Laurentiis</author>  
    <year>2005</year>  
    <price>30.00</price> 
  </book>  

  <book category="children"> 
    <title lang="en">Harry Potter</title>  
    <author>J K. Rowling</author>  
    <year>2005</year>  
    <price>29.99</price> 
  </book>  

  <book category="web"> 
    <title lang="en">XQuery Kick Start</title>  
    <author>James McGovern</author>  
    <author>Per Bothner</author>  
    <author>Kurt Cagle</author>  
    <author>James Linn</author>  
    <author>Vaidyanathan Nagarajan</author>  
    <year>2003</year>  
    <price>49.99</price> 
  </book> 

  <book category="web" cover="paperback"> 
    <title lang="en">Learning XML</title>  
    <author>Erik T. Ray</author>  
    <year>2003</year>  
    <price>39.95</price> 
  </book> 

</bookstore>

XML實例

XML和HTML區別

HTML DOM 模型示例

HTML DOM 定義了訪問和操作 HTML 文檔的標准方法，以樹結構方式表達 HTML 文檔

XPATH

XPath (XML Path Language) 是一門在 XML 文檔中查找信息的語言，可用來在 XML 文檔中對元素和屬性進行遍歷。

chrome插件XPATH HelPer

Firefox插件XPATH Checker

XPATH語法

最常用的路徑表達式：

謂語

謂語用來查找某個特定的節點或者包含某個指定的值的節點，被嵌在方括號中。

在下面的表格中，我們列出了帶有謂語的一些路徑表達式，以及表達式的結果：

選取位置節點

選取若干路勁

LXML庫

安裝：pip install lxml

lxml 是一個HTML/XML的解析器，主要的功能是如何解析和提取 HTML/XML 數據。

lxml和正則一樣，也是用 C 實現的，是一款高性能的 Python HTML/XML 解析器，可以利用XPath語法，來快速的定位特定元素以及節點信息。

簡單使用方法

#!/usr/bin/env python
# -*- coding:utf-8 -*-

from lxml import etree

text = '''
    <div>
        <li>11</li>
        <li>22</li>
        <li>33</li>
        <li>44</li>
    </div>
'''

#利用etree.HTML，將字符串解析為HTML文檔
html = etree.HTML(text)

# 按字符串序列化HTML文檔
result = etree.tostring(html)

print(result)

結果：

爬取美女吧圖片

1.先找到每個帖子列表的url集合

2.再找到每個帖子里面的每個圖片的的完整url鏈接

3.要用到 lxml 模塊去解析html

#!/usr/bin/env python
# -*- coding:utf-8 -*-

import urllib
import urllib2
from lxml import etree

def loadPage(url):
    """
        作用：根據url發送請求，獲取服務器響應文件
        url: 需要爬取的url地址
    """
    request = urllib2.Request(url)
    html = urllib2.urlopen(request).read()
    # 解析HTML文檔為HTML DOM模型
    content = etree.HTML(html)
    # 返回所有匹配成功的列表集合
    link_list = content.xpath('//div[@class="t_con cleafix"]/div/div/div/a/@href')
    for link in link_list:
        fulllink = "http://tieba.baidu.com" + link
        # 組合為每個帖子的鏈接
        #print link
        loadImage(fulllink)

# 取出每個帖子里的每個圖片連接
def loadImage(link):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.101 Safari/537.36'}
    request = urllib2.Request(link, headers = headers)
    html = urllib2.urlopen(request).read()
    # 解析
    content = etree.HTML(html)
    # 取出帖子里每層層主發送的圖片連接集合
    link_list = content.xpath('//img[@class="BDE_Image"]/@src')
    # 取出每個圖片的連接
    for link in link_list:
        # print link
        writeImage(link)

def writeImage(link):
    """
        作用：將html內容寫入到本地
        link：圖片連接
    """
    #print "正在保存 " + filename
    headers = {"User-Agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}
    # 文件寫入
    request = urllib2.Request(link, headers = headers)
    # 圖片原始數據
    image = urllib2.urlopen(request).read()
    # 取出連接后10位做為文件名
    filename = link[-10:]
    # 寫入到本地磁盤文件內
    with open(filename, "wb") as f:
        f.write(image)
    print "已經成功下載 "+ filename

def tiebaSpider(url, beginPage, endPage):
    """
        作用：貼吧爬蟲調度器，負責組合處理每個頁面的url
        url : 貼吧url的前部分
        beginPage : 起始頁
        endPage : 結束頁
    """
    for page in range(beginPage, endPage + 1):
        pn = (page - 1) * 50
        #filename = "第" + str(page) + "頁.html"
        fullurl = url + "&pn=" + str(pn)
        #print fullurl
        loadPage(fullurl)
        #print html

        print "謝謝使用"

if __name__ == "__main__":
    kw = raw_input("請輸入需要爬取的貼吧名:")
    beginPage = int(raw_input("請輸入起始頁："))
    endPage = int(raw_input("請輸入結束頁："))

    url = "http://tieba.baidu.com/f?"
    key = urllib.urlencode({"kw": kw})
    fullurl = url + key
    tiebaSpider(fullurl, beginPage, endPage)

4.爬取的圖片全部保存到了電腦里面

CSS選擇器：BeautifulSoup4

和 lxml 一樣，Beautiful Soup 也是一個HTML/XML的解析器，主要的功能也是如何解析和提取 HTML/XML 數據。

lxml 只會局部遍歷，而Beautiful Soup 是基於HTML DOM的，會載入整個文檔，解析整個DOM樹，因此時間和內存開銷都會大很多，所以性能要低於lxml。

BeautifulSoup 用來解析 HTML 比較簡單，API非常人性化，支持CSS選擇器、Python標准庫中的HTML解析器，也支持 lxml 的 XML解析器。

Beautiful Soup 3 目前已經停止開發，推薦現在的項目使用Beautiful Soup 4。使用 pip 安裝即可：pip install beautifulsoup4

使用Beautifulsoup4爬取騰訊招聘職位信息

from bs4 import BeautifulSoup
import urllib2
import urllib
import json    # 使用了json格式存儲

def tencent():
    url = 'http://hr.tencent.com/'
    request = urllib2.Request(url + 'position.php?&start=10#a')
    response =urllib2.urlopen(request)
    resHtml = response.read()

    output =open('tencent.json','w')

    html = BeautifulSoup(resHtml,'lxml')

# 創建CSS選擇器
    result = html.select('tr[class="even"]')
    result2 = html.select('tr[class="odd"]')
    result += result2

    items = []
    for site in result:
        item = {}

        name = site.select('td a')[0].get_text()
        detailLink = site.select('td a')[0].attrs['href']
        catalog = site.select('td')[1].get_text()
        recruitNumber = site.select('td')[2].get_text()
        workLocation = site.select('td')[3].get_text()
        publishTime = site.select('td')[4].get_text()

        item['name'] = name
        item['detailLink'] = url + detailLink
        item['catalog'] = catalog
        item['recruitNumber'] = recruitNumber
        item['publishTime'] = publishTime

        items.append(item)

    # 禁用ascii編碼，按utf-8編碼
    line = json.dumps(items,ensure_ascii=False)

    output.write(line.encode('utf-8'))
    output.close()

if __name__ == "__main__":
   tencent()

JSON和JSONPath

JSON(JavaScript Object Notation) 是一種輕量級的數據交換格式，它使得人們很容易的進行閱讀和編寫。同時也方便了機器進行解析和生成。適用於進行數據交互的場景，比如網站前台與后台之間的數據交互。

JsonPath 是一種信息抽取類庫，是從JSON文檔中抽取指定信息的工具，提供多種語言實現版本，包括：Javascript, Python， PHP 和 Java。

JsonPath 對於 JSON 來說，相當於 XPATH 對於 XML。

JsonPath與XPath語法對比：

Json結構清晰，可讀性高，復雜度低，非常容易匹配，下表中對應了XPath的用法。

利用JSONPath爬取拉勾網上所有的城市

#!/usr/bin/env python
# -*- coding:utf-8 -*-

import urllib2
# json解析庫，對應到lxml
import json
# json的解析語法，對應到xpath
import jsonpath

url = "http://www.lagou.com/lbs/getAllCitySearchLabels.json"
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.101 Safari/537.36'}
request = urllib2.Request(url, headers = headers)

response = urllib2.urlopen(request)
#  取出json文件里的內容，返回的格式是字符串
html =  response.read()

# 把json形式的字符串轉換成python形式的Unicode字符串
unicodestr = json.loads(html)

# Python形式的列表
city_list = jsonpath.jsonpath(unicodestr, "$..name")

#for item in city_list:
#    print item

# dumps()默認中文為ascii編碼格式，ensure_ascii默認為Ture
# 禁用ascii編碼格式，返回的Unicode字符串，方便使用
array = json.dumps(city_list, ensure_ascii=False)
#json.dumps(city_list)
#array = json.dumps(city_list)

with open("lagoucity.json", "w") as f:
    f.write(array.encode("utf-8"))

結果：

糗事百科爬取

利用XPATH的模糊查詢
獲取每個帖子里的內容
保存到 json 文件內

#!/usr/bin/env python
# -*- coding:utf-8 -*-

import urllib2
import json
from lxml import etree

url = "http://www.qiushibaike.com/8hr/page/2/"
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.101 Safari/537.36'}
request = urllib2.Request(url, headers = headers)

html = urllib2.urlopen(request).read()
# 響應返回的是字符串，解析為HTML DOM模式 text = etree.HTML(html)

text = etree.HTML(html)
# 返回所有段子的結點位置，contains()模糊查詢方法，第一個參數是要匹配的標簽，第二個參數是標簽名部分內容
node_list = text.xpath('//div[contains(@id, "qiushi_tag")]')

items ={}
for node in node_list:
    # xpath返回的列表，這個列表就這一個參數，用索引方式取出來，用戶名
    username = node.xpath('./div/a/@title')[0]
    # 取出標簽下的內容,段子內容
    content = node.xpath('.//div[@class="content"]/span')[0].text
    # 取出標簽里包含的內容，點贊
    zan = node.xpath('.//i')[0].text
    # 評論
    comments = node.xpath('.//i')[1].text

    items = {
        "username" : username,
        "content" : content,
        "zan" : zan,
        "comments" : comments
    }

    with open("qiushi.json", "a") as f:
        f.write(json.dumps(items, ensure_ascii=False).encode("utf-8") + "\n")

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 python爬蟲beautifulsoup4系列3 python爬蟲beautifulsoup4系列1 python爬蟲beautifulsoup4系列2 Python beautifulsoup4 快速入門爬蟲入門【3】BeautifulSoup4用法簡介【python小練】圖片爬蟲之BeautifulSoup4 Python 爬蟲之 Beautifulsoup4，爬網站圖片 python 3.x 爬蟲基礎---Requersts,BeautifulSoup4（bs4） Python: 安裝BeautifulSoup4 Python爬蟲教程-23-數據提取-BeautifulSoup4（一）