python3爬取電影數據


  爬取電影票房數據,用於統計建模分析。目標網站為電影票房數據庫(http://58921.com/alltime).

  基本的爬取靜態網站的技術,模擬登陸使用的是最簡單的cookies。(這種模擬登陸的方式雖然簡單但有很大的局限性,時效性比較短,也許兩三天后就失效了,或者網頁改版一點也會導致失效。最好的方式還是找到登陸頁面,獲取需要提交的數據和提交方式,模擬我們正常登陸的方式進行數據提交。)

       然后,分析頁面,用正則表達式匹配需要的信息,然后抓取信息,保存在excel表格里。

  不過這個網站的數據還是有很多問題,不少數據是缺失的,而且數據雜亂,演員數據要么重復,要么幾個 名字連在一起。還需要進行數據清洗,不能直接使用。

  代碼放在github上:https://github.com/JXC321/-.git


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM