利用Python網絡爬蟲來爬取電影院最新剛上映的電影來看看有喜歡的


1 前言
貓眼電影是淘寶聯合打造電影分類最全的電影的平台,能夠第一時間告知用戶,最新的電影上線時間。今天教大家獲取貓眼電影的即將上映的電影詳情。
 
 
2 項目目標
獲取貓眼電影的即將上映的電影詳情。
3 項目准備
軟件:PyCharm
需要的庫:requests、lxml、random、time
插件:Xpath
網站如下:
點擊下一頁的按鈕,觀察到網站的變化分別如下:
點擊下一頁時,頁面每增加一頁offset=()每次增加30,所以可以用{}代替變換的變量,再用for循環遍歷這網址,實現多個網址請求。
4 項目實現
1、定義一個class類繼承object,定義init方法繼承self,主函數main繼承self。導入需要的庫和網址,代碼如下所示。
2、隨機產生UserAgent。
3、發送請求,獲取頁面響應。
4、xpath解析一級頁面數據,獲取頁面信息。
1)基准xpath節點對象列表。
2)依次遍歷每個節點對象,提取數據。
5、定義movie,保存打印數據。
6、random.randint()方法,設置時間延時。
7、調用方法,實現功能。
5 效果展示
1、點擊綠色小三角運行輸入起始頁,終止頁。
 
 
2、運行程序后,結果顯示在控制台,如下圖所示。
 
 
3、點擊藍色下載鏈接, 網絡查看詳情。
 
 
6 小結
1、不建議抓取太多數據,容易對服務器造成負載,淺嘗輒止即可。
2、本文基於Python網絡爬蟲,利用爬蟲庫,實現爬取貓眼電影。
3、歡迎大家積極嘗試,有時候看到別人實現起來很簡單,但是到自己動手實現的時候,總會有各種各樣的問題,切勿眼高手低,勤動手,才可以理解的更加深刻。
4、貓眼電影代碼鏈接:, https://github.com/cassieeric/python_crawler/tree/master/MaoyanMovie ,覺得不錯,記得給個star噢。
 
此文轉載文,著作權歸作者所有,如有侵權聯系小編刪除! 原文地址: http://developer.51cto.com/art/202009/626415.htm
需要源代碼或者素材的
 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM