python的基礎爬蟲（利用requests和bs4）

本文轉載自查看原文 2017-05-07 06:53 11237

1、將請求網上資源：

1 import requests
2 res=requests.get('http://*******')
3 res.encoding='utf-8'
4 print(res.text)

這里面使用requests的get方法來獲取html，具體是get還是post等等要通過網頁頭信息來查詢：

比如百度的方法就是可以利用get得到。

2、將得到的網頁利用BeautifulSoup進行剖析

1 from bs4 import BeautifulSoup
2 soup=BeautifulSoup(res.text,'html.parser')
3 print(soup)#可以看到網頁的內容
4 for news in soup.select('.news-item'):#爬取一些新聞信息
5     header=news.select（'h1'）[0].text#新聞標題
6     time=news.select('.time')[0]#時間
7     print（header,time)

這里面需要注意的是結點的問題，在查看網頁的源代碼的時候要分清信息存儲的位置，一步一步進行剖析，合理使用for循環。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 python爬蟲基礎_requests和bs4 Python爬蟲准備——requests和bs4安裝簡單的python2.7基於bs4和requests的爬蟲 python 3.x 爬蟲基礎---Requersts,BeautifulSoup4（bs4） Python爬蟲bs4解析實戰 python爬蟲之bs4 美麗湯 Python爬蟲——利用bs4庫對HTML頁面信息進行遍歷讀取 Python爬蟲 (一) | 案例及模板簡要四步爬取購物網站信息 | 基於 requests、re、 pandas、 bs4 python庫：bs4，BeautifulSoup庫、Requests庫 python bs4 BeautifulSoup