對豆瓣電影進行可視化分析

本文轉載自查看原文 2021-06-18 00:30 155

一、數據描述

1.數據解釋

電影數據共140502部，2019年之前的電影有139129，當前未上映的有1373部，包含21個字段，部分字段數據為空，字段說明如下:

MOVIE_ID: 電影ID，對應豆瓣的DOUBAN_ID

NAME: 電影名稱

ALIAS: 別名

ACTORS: 主演

COVER: 封面圖片地址

DIRECTORS: 導演

GENRES: 類型

OFFICIAL_SITE: 地址

REGIONS: 制片國家/地區

LANGUAGES: 語言

RELEASE_DATE: 上映日期

MINS: 片長

IMDB_ID: IMDbID

DOUBAN_SCORE: 豆瓣評分

DOUBAN_VOTES: 豆瓣投票數

TAGS: 標簽

STORYLINE: 電影描述

SLUG: 加密的url，可忽略

YEAR: 年份

ACTOR_IDS: 演員與PERSON_ID的對應關系,多個演員采用“|”符號分割，格式“演員A:ID|演員B:ID”；

DIRECTOR_IDS: 導演與PERSON_ID的對應關系,多個導演采用“|”符號分割，格式“導演A:ID|導演B:ID”；

2.導入數據

import pandas as pd

df=pd.read_csv(r'C:\Users\蘇蘇\Desktop\seaborn-data\movies.csv',encoding='utf-8')

3.查看數據集信息

二、問題提出

1.主要比較世界電影和中國，以及中國大陸和中國港台電影之間的差別，分析各參數之間是否存在關聯性及對評分產生的影響

2.評分與其他屬性項的關系是什么，正負相關還是正態分布

三、數據清洗和預處理

查看缺失值

df.isnull().sum()

可以看出數據缺失的挺多，可進行刪除處理，為了節省后續操作的效率，刪去了不必要的字段。並且刪去了沒有評分的電影（評分為0）

#數據清洗
#去除無效列
df=df.drop(df.iloc[:,[0,4,9,12,15,19,20]],axis=1 )
#刪除重復值
df.drop_duplicates(inplace=True)
#刪除缺失值  指定列有缺失值的行.dropna(subset = ['gender'],how ='any')
df.dropna(inplace = True)
#刪去沒有評分的電影（評分為0）
df=df[~df['DOUBAN_SCORE'].isin([0])]
df.head()

查看數據類型

df.info()

檢查數據類型無誤

四、各變量相關性數據分析與可視化

本數據使用探索性分析工具dtale進行探究

dtale.show(df,ignore_duplicate=True)

1.查看數據類型

2.豆瓣評分分布情況描述及直方圖

可以看出，25%，第1四分位數，50%，第2四分位數，75%，第3四分位數，百分位數各自評分，最高評分9.8，最低2.2，平均7分，評分主要積聚在6到8分之間

3.能從年份&評分中看出點什么？

豆瓣世界電影的評分均值趨勢：

世界電影的評分Box箱線圖趨勢：

皮爾遜關聯性（Pearson correlation）的可視化：評分與年份

可以看出的是，豆瓣電影，近些年的好評的趨勢在逐年下降，特別是近兩年！也就是說，在豆瓣里，近些年的低分評價越來越多，從評分均值上看，一直處於下滑狀態，而且下滑曲線越來越陡，大量的爛片充斥着電影世界，導致平均分被嚴重拉低。另一方面，觀察箱線圖，從箱線圖的第三四分位數(等於該樣本中所有數值由小到大排列后第75%的數字)越來越低，可見，有75%的數據評分都在(約)7.3分之下；而第二四分位數，也就是中位數線也逐年向低分線靠近，對最近世界電影略微感到堪憂，難怪好片越來越少，垃圾片縱橫。

4.利用詞雲顯示在某個階段時間內，哪部電影評分高低情況

可以看出1989年以前，“是，大臣 1984聖誕特輯“評分較高，89年到03年”霸王別姬“等受歡迎，清晰明了。

5.豆瓣電影評分與時長關系

發現大部分電影時長集中在100分鍾左右，符合人們的觀影舒適感，不過此時長的電影殘次不齊，好壞各分千秋，而且發現，超過150分鍾的電影，不僅沒有讓觀眾因為電影太長而不喜歡，相反，正因為電影時長足夠，能夠充分鋪墊，使得即使兩三個小時的電影評分居高不下，當然也不排除個別又爛又長讓人看了想睡覺毫無意義的電影。

6.電影類型與評分關系

劇情/喜劇、劇情/愛情、同性、喜劇/愛情等類型電影居多，但評分卻普遍不高，可能是為了迎合大眾但又拍出來的效果不佳，相反，西部，歌舞，音樂，兒童和動畫類型的電影評分很高，深受喜愛

五、主要結論

1.從評分分布情況可以看到，整體而言是基本符合正態分布的，絕大多數電影的評分集中在[6.1,7.9]。

2.近些年的低分評價越來越多，從評分均值上看，一直處於下滑狀態，而且下滑曲線越來越陡，大量的爛片充斥着電影世界，導致平均分被嚴重拉低

3.電影時長的總體趨勢是越來越長了，近些年最低的時長也超過100分鍾，而且會有周期性波動的情況

4.時長很長的電影，都不會太爛，最容易踩雷區的是那種80-120分鍾的，話又說回來，時間很短的電影看來分數還是會挺高的呢，要么濃縮精華，要么用內容來填充時間，飽含內容的電影或許包羅萬象

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 利用爬蟲技術爬取‘豆瓣Top250’電影數據，並進行可視化分析電影數據集數據可視化分析爬取豆瓣電影及可視化 python3 對拉勾數據進行可視化分析利用python對《青春有你2》小姐姐們進行可視化分析對LOL游戲數據集進行可視化分析善用“可視化詞典圖”來幫助我們對數據進行可視化分析（tableau） Python爬蟲實戰+數據分析+數據可視化（豆瓣八佰電影影評）【Python可視化】使用Pyecharts進行奧運會可視化分析～ GraphVis 圖可視化分析組件