爬取電影票房數據,用於統計建模分析。目標網站為電影票房數據庫(http://58921.com/alltime).
基本的爬取靜態網站的技術,模擬登陸使用的是最簡單的cookies。(這種模擬登陸的方式雖然簡單但有很大的局限性,時效性比較短,也許兩三天后就失效了,或者網頁改版一點也會導致失效。最好的方式還是找到登陸頁面,獲取需要提交的數據和提交方式,模擬我們正常登陸的方式進行數據提交。)
然后,分析頁面,用正則表達式匹配需要的信息,然后抓取信息,保存在excel表格里。
不過這個網站的數據還是有很多問題,不少數據是缺失的,而且數據雜亂,演員數據要么重復,要么幾個 名字連在一起。還需要進行數據清洗,不能直接使用。
代碼放在github上:https://github.com/JXC321/-.git