爬取微博熱搜榜


一、主題式網絡爬蟲設計方案(15分)

1.主題式網絡爬蟲名稱  爬取新浪網熱搜

2.主題式網絡爬蟲爬取的內容與數據特征分析   爬取新浪網熱搜排行榜、熱度

3.主題式網絡爬蟲設計方案概述(包括實現思路與技術難點)

本案例使用requests庫獲取網頁數據,使用BeautifulSoup庫解析頁面內容,再使用pandas庫把爬取的數據輸出,並對數據可視化,最后進行小結;技術難點:爬取有用的數據,將有礙分析的數據剔除,回歸直線。

二、主題頁面的結構特征分析(15分)

1.主題頁面的結構特征

頁面內容如下,本方案要爬取的是表格中的內容。

 

 2.Htmls頁面解析

通過F12,對頁面進行檢查,查看我們所需要爬取內容的相關代碼。

 

 

 

 

 3.節點(標簽)查找方法與遍歷方法

三、網絡爬蟲程序設計(60分)

1.數據爬取與采集(20)

爬取的數據

 提取前五存入Excel

 

 

 2.對數據進行清洗和處理(10)

 

結果:

3.數據分析與可視化

 

 

 

 

 

 

 

 

 

 

 

 一元二次回歸直線

 

 

 

 

 完整代碼

 

 四、結論(10分)
1.經過對主題數據的分析與可視化, 可以得到哪些結論?

經過對數據的分析,可以觀察到熱搜的排名及熱度

2.對本次程序設計任務完成的情況做一個簡單的小結。

對於細節知識的缺乏,實踐存在很多問題,可視化通過查閱才得出,要學的東西還很多,希望自己保持求學的態度,繼續前行


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM