pandas DataFrame apply()函數(2)


上一篇pandas DataFrame apply()函數(1)說了如何通過apply函數對DataFrame進行轉換,得到一個新的DataFrame.

這篇介紹DataFrame apply()函數的另一個用法,得到一個新的pandas Series:

apply()中的函數接收的參數為一行(列),把一行(列)通過計算,返回一個值,最后返回一個Series:

下圖展示了把DataFrame的各列轉換成一個數,最后返回成一個Series:

 舉個栗子:

import numpy as np
import pandas as pd

df = pd.DataFrame({
    'a': [4, 5, 3, 1, 2],
    'b': [20, 10, 40, 50, 30],
    'c': [25, 20, 5, 15, 10]
})


# 對整個DataFrame應用np.mean()函數,取各列的平均值,返回一個包含了各列平均值的Series
print df.apply(np.mean) # 結果: a 3.0 b 30.0 c 15.0 dtype: float64
# 對整個DataFrame應用np.max()函數,取各列的最大值,返回一個包含了各列最大值的Series 
print df.apply(np.max) 

# 結果: a 5 b 50 c 25 dtype: int64

如果想要返回各列中第二大的數字組成的Series:

def get_second_largest(se):
    sorted_se = se.sort_values(ascending=False)
    return sorted_se.iloc[1]
    
def second_largest(df):
    return df.apply(get_second_largest)
    
print(second_largest(df))
a     4
b    40
c    20
dtype: int64

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM