數據分析案例-----------分析電影數據

本文轉載自查看原文 2021-01-12 21:09 404 python

需求

現在我們有一組從2006年到2016年1000部最流行的電影數據

數據來源：https://www.kaggle.com/damianpanek/sunday-eda/data

問題1：我們想知道這些電影數據中評分的平均分，導演的人數等信息，我們應該怎么獲取？
問題2：對於這一組電影數據，如果我們想rating，runtime的分布情況，應該如何呈現數據？
問題3：對於這一組電影數據，如果我們希望統計電影分類(genre)的情況，應該如何處理數據？

工具

python3.8
jupyter notebook

實現

導包

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

讀取數據

movies = pd.read_csv("./IMDB-Movie-Data.csv")

1、獲取平均分直接調用mean()函數。獲得導演數量：需要先把導演數據提取，然后去重，最后通過shape[0]獲取（不懂shape函數可以看我numpy數組屬性那）

### 獲取平均分
movies["Rating"].mean()
### 獲取導演人數
np.unique(movies["Director"]).shape[0]

2、呈現數據用的是matplotlib，如果用pandas繪圖，間隔會體現不出來，如下圖

matplotlib畫圖三步驟：

創建畫布
繪制圖像
顯示圖像

Rating的分布情況

## Rating的分布情況
## 用 plt畫圖

## 1、創建畫布
plt.figure(figsize=(20,8),dpi=100)

## 2、繪制圖像
plt.hist(movies["Rating"], bins=20)

## 2.1 添加x刻度

x_max = movies["Rating"].max()
x_min = movies["Rating"].min()

t1 = np.linspace(x_min,x_max,21)

plt.xticks(t1)

## 2.2添加網格
plt.grid()

## 3、顯示
plt.show()

同理Runtime (Minutes)的分布情況

## Runtime (Minutes)的分布情況

## 1、創建畫布
    
plt.figure(figsize=(20,8),dpi=100)
    
## 2、繪制圖像

plt.hist(movies["Runtime (Minutes)"],bins=20)
    
    ## 2.1、添加x軸刻度
    
x_max = movies["Runtime (Minutes)"].max()
x_min = movies["Runtime (Minutes)"].min()
    ## 生成20個區間，需要21個數字
t = np.linspace(x_min,x_max,num=21)
plt.xticks(t)
    ## 2.2、添加網格
plt.grid()
## 3、顯示圖像
plt.show()

3、統計電影分類情況

3.1 每個電影有多種類型，先把個電影類型提取出來，然后進行分割，放到一個列表，將列表進行去重得到所有電影類型。

3.2 生成一個一電影個數為行，電影類型數為列的全0矩陣，最后再將矩陣轉換成DataFrame,並以電影類型為列

3.3 for循環遍歷，通過索引操作將對應電影類型變為1

3.1代碼

## 用列表生成式
temp_list = [i.split(",") for i in movies["Genre"]]
type_list = np.unique([i for j in temp_list for i in j])

3.2代碼

zeros = np.zeros([movies.shape[0],type_list.shape[0]])
temp_movie = pd.DataFrame(data=zeros,columns=type_list)

3.3代碼

for i in range(1000):
    temp_movie.loc[i,temp_list[i]] = 1
## 按降序排序
genre = temp_movie.sum().sort_values(ascending=False)
## 畫圖
genre.plot(kind="bar",figsize=(20,8),fontsize=20,colormap="cool")

結尾

上述案例是對numpy、matplotlib、pandas的使用案例。也是對自己學的知識的一個總結

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 豆瓣電影數據分析 MovieLens電影數據分析 Python電影數據分析豆瓣高分電影信息分析（數據分析） pandas數據分析案例大數據分析案例 python 數據分析實際案例 Python數據分析案例實戰 Python數據分析入門案例大數據分析案例

數據分析案例-----------分析電影數據

需求

現在我們有一組從2006年到2016年1000部最流行的電影數據

數據來源：https://www.kaggle.com/damianpanek/sunday-eda/data

工具

實現

導包

讀取數據

1、獲取平均分直接調用mean()函數。獲得導演數量：需要先把導演數據提取，然后去重，最后通過shape[0]獲取 （不懂shape函數可以看我numpy數組屬性那）

2、呈現數據用的是matplotlib，如果用pandas繪圖，間隔會體現不出來，如下圖

matplotlib畫圖三步驟：

Rating的分布情況

同理Runtime (Minutes)的分布情況

3、統計電影分類情況

3.1 每個電影有多種類型，先把個電影類型提取出來，然后進行分割，放到一個列表，將列表進行去重得到所有電影類型。

3.2 生成一個一電影個數為行，電影類型數為列的全0矩陣，最后再將矩陣轉換成DataFrame,並以電影類型為列

3.3 for循環遍歷，通過索引操作將對應電影類型變為1

3.1代碼

3.2代碼

3.3代碼

結尾

上述案例是對numpy、matplotlib、pandas的使用案例。也是對自己學的知識的一個總結

免責聲明！

1、獲取平均分直接調用mean()函數。獲得導演數量：需要先把導演數據提取，然后去重，最后通過shape[0]獲取（不懂shape函數可以看我numpy數組屬性那）