1 前言
貓眼電影是淘寶聯合打造電影分類最全的電影的平台,能夠第一時間告知用戶,最新的電影上線時間。今天教大家獲取貓眼電影的即將上映的電影詳情。

2 項目目標
獲取貓眼電影的即將上映的電影詳情。
3 項目准備
軟件:PyCharm
需要的庫:requests、lxml、random、time
插件:Xpath
網站如下:

點擊下一頁的按鈕,觀察到網站的變化分別如下:

點擊下一頁時,頁面每增加一頁offset=()每次增加30,所以可以用{}代替變換的變量,再用for循環遍歷這網址,實現多個網址請求。
4 項目實現
1、定義一個class類繼承object,定義init方法繼承self,主函數main繼承self。導入需要的庫和網址,代碼如下所示。

2、隨機產生UserAgent。

3、發送請求,獲取頁面響應。

4、xpath解析一級頁面數據,獲取頁面信息。
1)基准xpath節點對象列表。

2)依次遍歷每個節點對象,提取數據。

5、定義movie,保存打印數據。

6、random.randint()方法,設置時間延時。

7、調用方法,實現功能。

5 效果展示
1、點擊綠色小三角運行輸入起始頁,終止頁。

2、運行程序后,結果顯示在控制台,如下圖所示。

3、點擊藍色下載鏈接, 網絡查看詳情。

6 小結
1、不建議抓取太多數據,容易對服務器造成負載,淺嘗輒止即可。
2、本文基於Python網絡爬蟲,利用爬蟲庫,實現爬取貓眼電影。
3、歡迎大家積極嘗試,有時候看到別人實現起來很簡單,但是到自己動手實現的時候,總會有各種各樣的問題,切勿眼高手低,勤動手,才可以理解的更加深刻。
4、貓眼電影代碼鏈接:, https://github.com/cassieeric/python_crawler/tree/master/MaoyanMovie ,覺得不錯,記得給個star噢。
此文轉載文,著作權歸作者所有,如有侵權聯系小編刪除! 原文地址: http://developer.51cto.com/art/202009/626415.htm
需要源代碼或者素材的