對豆瓣電影進行可視化分析


一、數據描述

1.數據解釋

電影數據共140502部,2019年之前的電影有139129,當前未上映的有1373部,包含21個字段,部分字段數據為空,字段說明如下:

MOVIE_ID: 電影ID,對應豆瓣的DOUBAN_ID

NAME: 電影名稱

ALIAS: 別名

ACTORS: 主演

COVER: 封面圖片地址

DIRECTORS: 導演

GENRES: 類型

OFFICIAL_SITE: 地址

REGIONS: 制片國家/地區

LANGUAGES: 語言

RELEASE_DATE: 上映日期

MINS: 片長

IMDB_ID: IMDbID

DOUBAN_SCORE: 豆瓣評分

DOUBAN_VOTES: 豆瓣投票數

TAGS: 標簽

STORYLINE: 電影描述

SLUG: 加密的url,可忽略

YEAR: 年份

ACTOR_IDS: 演員與PERSON_ID的對應關系,多個演員采用“|”符號分割,格式演員A:ID|演員B:ID”

DIRECTOR_IDS: 導演與PERSON_ID的對應關系,多個導演采用“|”符號分割,格式導演A:ID|導演B:ID”

2.導入數據

import pandas as pd

df=pd.read_csv(r'C:\Users\蘇蘇\Desktop\seaborn-data\movies.csv',encoding='utf-8')

3.查看數據集信息

 

二、問題提出

1.主要比較世界電影和中國,以及中國大陸和中國港台電影之間的差別,分析各參數之間是否存在關聯性及對評分產生的影響

2.評分與其他屬性項的關系是什么,正負相關還是正態分布

三、數據清洗和預處理

查看缺失值

 

df.isnull().sum()

 

 可以看出數據缺失的挺多,可進行刪除處理,為了節省后續操作的效率,刪去了不必要的字段。並且刪去了沒有評分的電影(評分為0)

 

#數據清洗
#去除無效列
df=df.drop(df.iloc[:,[0,4,9,12,15,19,20]],axis=1 )
#刪除重復值
df.drop_duplicates(inplace=True)
#刪除缺失值  指定列有缺失值的行.dropna(subset = ['gender'],how ='any')
df.dropna(inplace = True)
#刪去沒有評分的電影(評分為0)
df=df[~df['DOUBAN_SCORE'].isin([0])]
df.head()

 

 

查看數據類型

df.info()

 

 檢查數據類型無誤

 

 四、各變量相關性數據分析與可視化

本數據使用探索性分析工具dtale進行探究

dtale.show(df,ignore_duplicate=True)

1.查看數據類型

 

 

2.豆瓣評分分布情況描述及直方圖

 

 

 

 

 

可以看出,25%,第1四分位數,50%,第2四分位數,75%,第3四分位數,百分位數各自評分,最高評分9.8,最低2.2,平均7分,評分主要積聚在6到8分之間

 

3.能從年份&評分中看出點什么?

豆瓣世界電影的評分均值趨勢:

 

 世界電影的評分Box箱線圖趨勢:

 

 皮爾遜關聯性(Pearson correlation)的可視化:評分與年份

 

 

可以看出的是,豆瓣電影,近些年的好評的趨勢在逐年下降,特別是近兩年!也就是說,在豆瓣里,近些年的低分評價越來越多,從評分均值上看,一直處於下滑狀態,而且下滑曲線越來越陡,大量的爛片充斥着電影世界,導致平均分被嚴重拉低。另一方面,觀察箱線圖,從箱線圖的第三四分位數(等於該樣本中所有數值由小到大排列后第75%的數字)越來越低,可見,有75%的數據評分都在(約)7.3分之下;而第二四分位數,也就是中位數線也逐年向低分線靠近,對最近世界電影略微感到堪憂,難怪好片越來越少,垃圾片縱橫。
 

4.利用詞雲顯示在某個階段時間內,哪部電影評分高低情況

 

 可以看出1989年以前,“是,大臣 1984聖誕特輯“評分較高,89年到03年”霸王別姬“等受歡迎,清晰明了。

 

5.豆瓣電影評分與時長關系

 

 發現大部分電影時長集中在100分鍾左右,符合人們的觀影舒適感,不過此時長的電影殘次不齊,好壞各分千秋,而且發現,超過150分鍾的電影,不僅沒有讓觀眾因為電影太長而不喜歡,相反,正因為電影時長足夠,能夠充分鋪墊,使得即使兩三個小時的電影評分居高不下,當然也不排除個別又爛又長讓人看了想睡覺毫無意義的電影。

 

6.電影類型與評分關系

 

 

 

 

劇情/喜劇、劇情/愛情、同性、喜劇/愛情等類型電影居多,但評分卻普遍不高,可能是為了迎合大眾但又拍出來的效果不佳,相反,西部,歌舞,音樂,兒童和動畫類型的電影評分很高,深受喜愛

 

五、主要結論

1.從評分分布情況可以看到,整體而言是基本符合正態分布的,絕大多數電影的評分集中在[6.1,7.9]。
2.近些年的低分評價越來越多,從評分均值上看,一直處於下滑狀態,而且下滑曲線越來越陡,大量的爛片充斥着電影世界,導致平均分被嚴重拉低
3.電影時長的總體趨勢是越來越長了,近些年最低的時長也超過100分鍾,而且會有周期性波動的情況
4.時長很長的電影,都不會太爛,最容易踩雷區的是那種80-120分鍾的,話又說回來,時間很短的電影看來分數還是會挺高的呢,要么濃縮精華,要么用內容來填充時間,飽含內容的電影或許包羅萬象


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM