如何利用python爬取網易新聞

本文轉載自查看原文 2019-11-29 14:51 375 Python爬蟲

前言

本文的文字及圖片來源於網絡,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯系我們以作處理。

作者： LSGOGroup

PS：如有需要Python學習資料的小伙伴可以加點擊下方鏈接自行獲取

http://note.youdao.com/noteshare?id=3054cce4add8a909e784ad934f956cef

學習了python基本語法后，對爬蟲產生了很大的興趣，廢話不多說，今天來爬取網易新聞，實戰出真知。

打開網易新聞可以發現新聞分為這樣的幾個板塊：

在這里插入圖片描述

這次選擇國內板塊來爬取文章。

1. 准備

環境：python3
編譯器：PyCharm
安裝 selenium 針對三大瀏覽器驅動 driver

下載地址

chromedriver：https://code.google.com/p/chromedriver/downloads/list
Firefox 的驅動 geckodriver：https://github.com/mozilla/geckodriver/releases/
IE 的驅動 IEdrive：http://www.nuget.org/packages/Selenium.WebDriver.IEDriver/

了解網頁

網頁絢麗多彩，美輪美奐，如同一幅水彩畫。爬取數據首先需要知道所需要抓取的數據是怎樣的呈現的，就像學作一幅畫，開始前你要知道這幅畫是用什么畫出來的，鉛筆還是水彩筆…可能種類是多樣的，但是放到網頁信息來說這兒只有兩種呈現方式：

HTML
JSON

HTML是用來描述網頁的一種語言

JSON是一種輕量級的數據交換格式

爬取網頁信息其實就是向網頁提出請求，服務器就會將數據反饋給你

2. 獲得動態加載源碼

導入需要的用的模塊和庫：

1 from bs4 import BeautifulSoup
2 import time
3 import def_text_save as dts
4 import def_get_data as dgd
5 from selenium import webdriver
6 from selenium.webdriver.common.keys import Keys
7 from selenium.webdriver.common.action_chains import ActionChains #引入ActionChains鼠標操作類

獲取網頁信息需要發送請求，requests 能幫我們很好的完成這件事，但是仔細觀察發現網易新聞是動態加載，requests 返回的是即時信息，網頁部分稍后加載出來的數據沒有返回，這種情況 selenium 能夠幫助我們得到更多的數據，我們將 selenium 理解為一個自動化測試工具就好，Selenium 測試直接運行在瀏覽器中，就像真正的用戶在操作一樣。

我使用的瀏覽器為Firefox

1 browser = webdriver.Firefox()#根據瀏覽器切換
2 browser.maximize_window()#最大化窗口
3 browser.get('http://news.163.com/domestic/')

這樣我們就能驅動瀏覽器自動登陸網易新聞頁面

在這里插入圖片描述

我們的目標自然是一次將國內板塊爬取下來，觀察網頁，在網頁不斷向下刷時，新的新聞才會加載出來，到最下面甚至還有需要點擊按鈕才能刷新：

在這里插入圖片描述

這時使用 selenium 就能展現其優勢：自動化，模擬鼠標鍵盤操作：

1 diver.execute_script("window.scrollBy(0,5000)")
2 #使網頁向下拉，括號內為每次下拉數值

在網頁中右鍵點擊加載更多按鈕，點擊查看元素，可以看到

在這里插入圖片描述

通過這個 class 就可以定位到按鈕，碰到按鈕時，click 事件就能幫助我們自動點擊按鈕完成網頁刷新

 1 # 爬取板塊動態加載部分源代碼
 2 
 3 info1=[]
 4 info_links=[]    #存儲文章內容鏈接
 5 try:
 6     while True :
 7         if  browser.page_source.find("load_more_btn") != -1 :
 8             browser.find_element_by_class_name("load_more_btn").click()
 9         browser.execute_script("window.scrollBy(0,5000)")
10         time.sleep(1)
11 except:
12     url = browser.page_source#返回加載完全的網頁源碼
13     browser.close()#關閉瀏覽器

獲取有用信息

簡單來說，BeautifulSoup 是 python 的一個庫，最主要的功能是從網頁抓取數據，能減輕菜鳥的負擔。通過 BeautifulSoup 解析網頁源碼，在加上附帶的函數，我們能輕松取出想要的信息，例如：獲取文章標題，標簽以及文本內容超鏈接在這里插入圖片描述

同樣在文章標題區域右鍵點擊查看元素：

在這里插入圖片描述

觀察網頁結構發現每一個div標簽class=“news_title" 下都是文章的標題和超鏈接。soup.find_all()函數能幫我們找到我們想要的全部信息，這一級結構下的內容就能一次摘取出來。最后通過字典，把標簽信息，挨個個取出來。

 1 info_total=[]
 2 def get_data(url):
 3     soup=BeautifulSoup(url,"html.parser")
 4     titles=soup.find_all('div','news_title')
 5     labels=soup.find('div','ns_area second2016_main clearfix').find_all('div','keywords')
 6     for title, label in zip(titles,labels ):
 7             data = {
 8                 '文章標題': title.get_text().split(),
 9                 '文章標簽':label.get_text().split() ,
10                 'link':title.find("a").get('href')
11             }
12             info_total.append(data)
13     return info_total

4. 獲取新聞內容

自此，新聞鏈接已經被我們取出來存到列表里了，現在需要做的就是利用鏈接得到新聞主題內容。新聞主題內容頁面為靜態加載方式，requests 能輕松處理：

 1 def get_content(url):
 2     info_text = []
 3     info=[]
 4     adata=requests.get(url)
 5     soup=BeautifulSoup(adata.text,'html.parser')
 6     try  :
 7         articles = soup.find("div", 'post_header').find('div', 'post_content_main').find('div', 'post_text').find_all('p')
 8     except :
 9         articles = soup.find("div", 'post_content post_area clearfix').find('div', 'post_body').find('div', 'post_text').find_all(
10             'p')
11     for a in articles:
12         a=a.get_text()
13         a= ' '.join(a.split())
14         info_text.append(a)
15     return (info_text)

使用 try except的原因在於，網易新聞文章在某個時間段前后，文本信息所處位置標簽不一樣，對不同的情況應作出不同的處理。

最后遍歷整個列表取出全部文本內容：

 1 for i in  info1 :
 2     info_links.append(i.get('link'))
 3 x=0   #控制訪問文章目錄
 4 info_content={}# 存儲文章內容
 5 for i in info_links:
 6     try :
 7         info_content['文章內容']=dgd.get_content(i)
 8     except:
 9         continue
10     s=str(info1[x]["文章標題"]).replace('[','').replace(']','').replace("'",'').replace(',','').replace('《','').replace('》','').replace('/','').replace(',',' ')
11     s= ''.join(s.split())
12     file = '/home/lsgo18/PycharmProjects/網易新聞'+'/'+s
13     print(s)
14     dts.text_save(file,info_content['文章內容'],info1[x]['文章標簽'])
15     x = x + 1

存儲數據到本地txt文件

python 提供了處理文件的函數open（），第一個參數為文件路徑，第二為文件處理模式，"w" 模式為只寫（不存在文件則創建，存在則清空內容）

1 def text_save(filename, data,lable):   #filename為寫入CSV文件的路徑
2     file = open(filename,'w')
3     file.write(str(lable).replace('[','').replace(']','')+'\n')
4     for i in range(len(data)):
5         s =str(data[i]).replace('[','').replace(']','')#去除[],這兩行按數據不同，可以選擇
6         s = s.replace("'",'').replace(',','') +'\n'   #去除單引號，逗號，每行末尾追加換行符
7         file.write(s)
8     file.close()
9     print("保存文件成功")

一個簡單的爬蟲至此就編寫成功：

在這里插入圖片描述

到此為止，爬取網易新聞的方法就介紹完了，希望對大家有用！See You！

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Python爬取網站新聞 Python爬蟲實戰教程：爬取網易新聞；爬蟲精選高手技巧 python爬取網易評論 Python爬取網易雲歌單某新聞網站的爬取騰訊新聞數據爬取 python爬蟲:了解JS加密爬取網易雲音樂 python學習之爬蟲(一) ——————爬取網易雲歌詞 python網絡爬蟲&&爬取網易雲音樂 python爬取網易雲音樂歌單音樂