開始學習網絡數據挖掘方面的知識,首先從Beautiful Soup入手(
Beautiful Soup是一個Python庫,功能是從HTML和XML中解析數據),打算以三篇博文紀錄學習Beautiful Soup的過程,
第一篇是Beautiful Soup基礎知識,后兩篇利用前邊的Beautiful Soup知識
完成一個簡單的爬蟲,抓取allitebook.com的書籍信息和ISBN碼,再根據ISBN碼去amazon.com抓取書籍對應的價格。
一、Beautiful Soup簡介
網絡數據挖掘指的是從網站中獲取數據的過程,數據挖掘技術可以讓我們從網站世界中收集大量有價值的數據。
Beautiful Soup是一個Python庫,可以從HTML或XML文件中獲取數據,利用它你可以做很多事情,比如你可以持續解析某個商品的最新價格,以便跟蹤價格的波動情況。
二、Beautiful Soup安裝(Mac)
安裝Beautiful Soup
sudo pip3 install beautifulsoup4
檢驗是否安裝成功
from bs4 import BeautifulSoup
三、創建一個Beautiful Soup對象
html_atag = """<html><body><p>Test html a tag example</p> <a href="http://www. allitebook.com">Home</a> <a href="http://www.allitebook.com/books">Books</a> </body> </html>""" soup = BeautifulSoup(html_atag, "html5lib") print(soup.a)
四、查找內容
find()方法
在find()方法中傳入節點名,例如ul,這樣就可以獲取第一個匹配的ul節點的內容,例如:
#input html_markup = """<div> <ul id="students"> <li class="student"> <div class="name">Carl</div> <div class="age">32</div> </li> <li class="student"> <div class="name">Lucy</div> <div class="age">25</div> </li> </ul> </div>""" student_entries = soup.find("ul") print(student_entries) #output <ul id="students"> <li class="student"> <div class="name">Carl</div> <div class="age">32</div> </li> <li class="student"> <div class="name">Lucy</div> <div class="age">25</div> </li> </ul>
找到ul節點后,通過觀察html可以得知,ul下有2個li,每個li下有2個div,則通過student_entries.li可以獲取第一個li節點的數據,繼續通過student_entries.li.div可以獲取第一個li下第一個div的數據,例如:
#input print(student_entries.li) #output <li class="student"> <div class="name">Carl</div> <div class="age">32</div> </li> #input print(student_entries.li.div) #output <div class="name">Carl</div>
繼續通過div.string可以獲取div的內容:
#input print(student_entries.li.div.string) #output 'Carl'
使用正則表達式查找:
find()方法支持根據正則表達式查找內容,例如:
#input import re email_id_example ="""<div>The below HTML has the information that has email ids.</div> abc@example.com <div>xyz@example.com</div> <span>foo@example.com</span>""" soup = BeautifulSoup(email_id_example,"lxml") emailid_regexp = re.compile("\w+@\w+\.\w+") first_email_id = soup.find(text=emailid_regexp) print(first_email_id) #output abc@example.com
find_all()方法
find()方法返回第一個匹配的內容,find_all()方法會返回所有匹配的內容列表,例如上面的根據正則表達式查找郵箱地址,將find()方法換成find_all()方法,則會返回所有匹配成功的內容:
#input all_email_id = soup.find_all(text=emailid_regexp) print(all_email_id) #output ['abc@example.com', 'xyz@example.com', 'foo@example.com']
find_parent()方法
find_parent()方法往上查找內容,例如,從第一個li節點上使用find_parent()方法,可以獲取父節點的內容:
#input print(first_student) #output <li class="student"> <div class="name">Carl</div> <div class="age">32</div> </li> #input all_students = first_student.find_parent('ul') print(all_students) #output <ul id="students"> <li class="student"> <div class="name">Carl</div> <div class="age">32</div> </li> <li class="student"> <div class="name">Lucy</div> <div class="age">25</div> </li> </ul>
find_next_sibling()方法
sibling是兄弟姐妹的意思,find_next_sibling()方法獲取下一個同級別的兄弟節點,例如:
#input second_student = first_student.find_next_sibling() print(second_student) #output <li class="student"> <div class="name">Lucy</div> <div class="age">25</div> </li>
其它方法還有很多,例如:
find_next()方法
find_all_next()方法
find_previous_sibling()方法
find_all_previous()方法
用法都差不多,這里不再一一贅述,具體請查看官方文檔:
https://www.crummy.com/software/BeautifulSoup/bs4/doc/#searching-the-tree
五、瀏覽內容
瀏覽子節點
使用子節點的標簽名即可獲取子節點的內容,例如:
#input print(first_student) #output <li class="student"> <div class="name">Carl</div> <div class="age">32</div> </li> #input name = first_student.div print(name) #output <div class="name">Carl</div>
瀏覽父節點
使用.parent屬性可以瀏覽父節點,例如:
#input print(name.parent) #output <li class="student"> <div class="name">Carl</div> <div class="age">32</div> </li>
瀏覽兄弟節點即同級節點,next_sibling和previous_sibling屬性分別獲取上一個和下一個兄弟節點。例如:
#input print(first_student.next_sibling) #output <li class="student"> <div class="name">Lucy</div> <div class="age">25</div> </li>
六、修改內容
修改標簽的名字
可以通過.name屬性獲取某個節點的標簽名,同樣將某個標簽名賦值給.name屬性可以很輕易改變標簽的名稱,例如:
#input first_student #output <li class="student"> <div class="name">Carl</div> <div class="age">32</div> </li> #input first_student.name #output 'li' #input first_student.name = 'div' first_student.name #output 'div' #input first_student #output <div class="student"> <div class="name">Carl</div> <div class="age">32</div> </div>
修改標簽的屬性
#input first_student['class'] = 'student_new' print(first_student) #output <div class="student_new"> <div class="name">Carl</div> <div class="age">32</div> </div>
注意:如果class屬性沒有的話,則此操作不會報錯,而變為一個新增操作。
刪除一個標簽的屬性
使用del方法可以將一個節點的某個屬性刪除。例如:
#input del first_student['class'] print(first_student) #output <div> <div class="name">Carl</div> <div class="age">32</div> </div>
修改標簽的內容
使用.string屬性可以獲取標簽的內容值('Carl'),同樣,對此屬性的賦值操作也可以更該其值,例如:
#input print(first_student.div.string) #output Carl #input first_student.div.string = 'carl_new' print(first_student.div.string) #output carl_new
直接刪除某個節點
使用decompose()方法可以直接刪除某個節點:
#input print(first_student) #output <li class="student"> <div class="name">carl_new</div> <div class="age">32</div> </li> #input first_student.div.decompose() print(first_student) #output <li class="student"> <div class="age">32</div> </li>
使用extract()方法同樣可以刪除某個節點,不過它和decompose()方法不同的是,extract()會返回被刪除的這個節點的內容。
我們處於大數據時代,對數據處理感興趣的朋友歡迎查看另一個系列隨筆:
利用Python進行數據分析 基礎系列隨筆匯總
接下來將利用這篇的Beautiful Soup基礎知識完成一個簡單的爬蟲,分別獲取兩個網站的書籍信息和價格並組合在一起並輸出到csv文件中。有興趣的朋友歡迎關注本博客,也歡迎大家留言進行討論。
大數據,大數據分析、BeautifulSoup,Beautiful Soup入門,數據挖掘,數據分析,數據處理,pandas,網絡爬蟲,web scraper