Python簡單爬蟲入門一


為大家介紹一個簡單的爬蟲工具BeautifulSoup

BeautifulSoup擁有強大的解析網頁及查找元素的功能本次測試環境為python3.4(由於python2.7編碼格式問題)

此工具在搜索你想爬的數據匹配的方式就是html標簽嵌套的順序(html介紹在其它隨筆內)

首先來聊聊BeautifulSoup的安裝pip install python-bs4 包含BeautifulSoup方法

再來安裝依賴工具requests和解析格式lxml下載安裝包 解壓進入目錄 python setup.py install此方法是請求服務

先來寫一個簡單的網頁解析代碼如下:

#!/usr/bin/env python
# -*- coding:utf-8 -*-

from bs4 import BeautifulSoup
import requests


headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36',
}
url = "http://www.jd.com/"

wb_data = requests.get(url,headers=headers)
soup = BeautifulSoup(wb_data.text,'lxml')
print(soup)

來簡單說明下每行代碼得作用:

from從bs4庫里import導入BeautifulSoup方法

import導入requests方法

headers表示頭文件,偽裝成瀏覽器瀏覽網頁,當然我這里寫得簡單還沒寫全

url網頁地址

wb_data網頁數據requests.get請求訪問(url網頁京東,headers偽裝的頭文件)

soup解析后的數據BeautifulSoup解析數據(wb_data網頁數據,lxml解析的格式按這個要求解析)

print答應soup解析后的網頁數據 也就是網頁源代碼如下 由於網頁源代碼很長所以這里截圖只能顯示一部分

學好基礎包括html的結構標簽的嵌套還有CSS的名字在網頁位置等后教你們怎么去抓電影等網站並且把內容歸類好方便查閱

下面是我抓去某電影網站的數據及歸類效果掩飾:

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM