一、主題式網絡爬蟲設計方案(15分)
1.主題式網絡爬蟲名稱 爬取新浪網熱搜
2.主題式網絡爬蟲爬取的內容與數據特征分析 爬取新浪網熱搜排行榜、熱度
3.主題式網絡爬蟲設計方案概述(包括實現思路與技術難點)
本案例使用requests庫獲取網頁數據,使用BeautifulSoup庫解析頁面內容,再使用pandas庫把爬取的數據輸出,並對數據可視化,最后進行小結;技術難點:爬取有用的數據,將有礙分析的數據剔除,回歸直線。
二、主題頁面的結構特征分析(15分)
1.主題頁面的結構特征
頁面內容如下,本方案要爬取的是表格中的內容。
2.Htmls頁面解析
通過F12,對頁面進行檢查,查看我們所需要爬取內容的相關代碼。
3.節點(標簽)查找方法與遍歷方法
三、網絡爬蟲程序設計(60分)
1.數據爬取與采集(20)
爬取的數據
提取前五存入Excel
2.對數據進行清洗和處理(10)
結果:
3.數據分析與可視化
一元二次回歸直線
完整代碼
四、結論(10分)
1.經過對主題數據的分析與可視化, 可以得到哪些結論?
經過對數據的分析,可以觀察到熱搜的排名及熱度
2.對本次程序設計任務完成的情況做一個簡單的小結。
對於細節知識的缺乏,實踐存在很多問題,可視化通過查閱才得出,要學的東西還很多,希望自己保持求學的態度,繼續前行