Python中關於列表嵌套列表的處理

本文轉載自查看原文 2019-02-28 11:28 554 Python

在處理列表的時候我們經常會遇到列表中嵌套列表的結構，如果我們要把所有元素放入一個新列表，或者要計算所有元素的個數的話應該怎么做呢？

第一個例子

IMDB-Movie-Data

對於上圖中的這樣一組數據，如果我們要知道這個CSV文件中所有演員的數量（同一個人只能出現一次）應該怎么做呢？

在pandas中我們可以先取Actors這一列，但是取出來之后我們會發現這是一個列表中嵌套列表的結構，要想將所有元素提取出來我們可以使用兩個for循環來解決這一問題。代碼如下：

# encoding = utf-8

import pandas as pd

file_path = "d:/learning/pandas/IMDB-Movie-Data.csv"

df = pd.read_csv(file_path)

print(df.head(1))

# 讀平均評分
print(df["Rating"].mean())

# 導演的人數（下面兩個操作達到的效果是一樣的）
print(len(set(df["Director"].tolist())))
print(len(df["Director"].unique()))

# 獲取演員的人數
temp_list = df["Actors"].str.split(", ").tolist()

# 將列表套列表轉為單列表
actors_list = [i for j in temp_list for i in j]

# set函數是對列表作集合操作，可以去重
print(len(set(actors_list)))

第二個例子

我們再來看第二組例子，還是上圖中的數據，如果我們想要統計各個分類的電影的數量，應該怎么做呢？核心思想是：

先處理列表嵌套列表，將所有的分類統計出來；
建立一個值全為0的數組，這個數組的行數等於電影數，列數等於分類數；
在這個數組的列方向上進行求和，得出結果。

# coding=utf-8

import pandas as pd
import numpy as np
from matplotlib import pyplot as plt

file_path = "~/桌面/IMDB-Movie-Data.csv"
df = pd.read_csv(file_path)

# 新建臨時列表，將數組中分類列讀取
temp_list =  df["Genre"].str.split(",").tolist()
# 處理列表嵌套列表的結構，去除重復元素
Genre_list = set([i for j in temp_list for i in j])

# 新建一個統計數組，即上文所說的第二步
a = pd.DataFrame(np.zeros((df.shape[0], len(Genre_list))), columns=Genre_list, dtype=int)

# 賦值，將上述列表中對應的位置的值變為1
for i in range(len(temp_list)):
    a.loc[i, temp_list[i]] = 1

# 求和，統計每個分類的電影的數量
sum = a.sum(axis=0)
sum = sum.sort_values(ascending=False)

# 繪制條形統計圖
_x = sum.index
_y = sum.values

plt.figure(figsize=(20, 8), dpi=80)
plt.yticks(range(max(sum.values)+50)[::50])

plt.bar(_x, _y)
plt.show()

結果如圖：

電影分類情況統計圖

這里有一個重要的問題，如果原始數據的行數特別多，再采用for循環進行行遍歷就會耗費特別長的時間

解決辦法見這里的第三個例子。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Python中的嵌套列表 python中的列表的嵌套與轉換 Python列表中的列表元素（嵌套列表）訪問 python3 處理列表嵌套字典去重處理嵌套列表 python中的字典列表嵌套循環 python中嵌套列表轉為字典 python 如何排序嵌套列表 PYTHON壓平嵌套列表 Python嵌套列表去重