Python實現行轉列


數據的行轉列操作,在實際工作過程中應用非常廣泛。
由於不同人員、不同部門對數據結構的認識是不大相同的,尤其是從基層人員手里拿到的數據,更是五花八門,橫七豎八。
比如有這樣一張成績表:

 

 

需求:=簡單計算一下每個人的總分吧!


安排

# 遇事不要慌,先導個包吧
import pandas as pd
import numpy as np

# 造假數據
data = {'name':['嚴小樣兒','嚴小樣兒','嚴小樣兒','才華橫豎都溢','才華橫豎都溢','才華橫豎都溢','幽蘭幽香','幽蘭幽香','幽蘭幽香'],
       'subject':['Python','C','SQL','Python','C','SQL','Python','C','SQL'],
       'score':[95,60,95,96,95,80,99,94,88]}

# 生成df
df = pd.DataFrame(data)
df

 

 

使用pivot方法即可完成行轉列哦~語法如下:

#df.pivot(index=None, columns=None, values=None)
df.pivot(index='name',columns='subject',values='score')

 

 

不要高興的太早,遇到重復值就麻煩了!少俠請看:

# 造含有重復值的假數據
data1 = {'name':['嚴小樣兒','嚴小樣兒','嚴小樣兒','嚴小樣兒','才華橫豎都溢','才華橫豎都溢','才華橫豎都溢','幽蘭幽香','幽蘭幽香','幽蘭幽香'],
       'subject':['Python','Python','C','SQL','Python','C','SQL','Python','C','SQL'],
       'score':[95,95,60,95,96,95,80,99,94,88]}

df1 = pd.DataFrame(data1)
df1

 

df1.pivot(index='name',columns='subject',values='score')

# 一旦有重復值,就會報錯。
ValueError: Index contains duplicate entries, cannot reshape

 

 

別急別急,去個重不就可以了嗎?!

df1.drop_duplicates().pivot(index='name',columns='subject',values='score')

 

 

方法二:數據透視表

# pivot_table(data, values=None, index=None, columns=None, aggfunc='mean')
pd.pivot_table(df1,index='name',columns='subject',values='score',aggfunc={'score':'max'})

 


聚合

剛剛說了,要求每個人的總分,其實使用透視表就可以完成。
不過,稍微動動腦筋哦。遇到重復值數據的話,只能使用下面的方法一,去重后的數據集,方法一,二都支持。
計算每個人的總分,語法如下:

# 重復數據集也可以
df_pivot = pd.pivot_table(df1,index='name',columns='subject',values='score',aggfunc={'score':'max'})
# 增加一個新列:Total
df_pivot['Total'] = df_pivot.apply(lambda x:np.sum(x),axis = 1)
df_pivot

 

方法二,必須是去重后的數據集,否則會出現計算錯誤。

# 使用去重數據集才可以
pd.pivot_table(df,index='name',values='score',aggfunc='sum')

# 使用join方法把總分列加進去。
total = pd.pivot_table(df,index='name',values='score',aggfunc='sum')
pd.pivot_table(df,index='name',columns='subject',values='score').join(total)

--需求方:算是算出來了,可是,這個score看着怪怪的,能不能改成“總分”呢?
--嚴小樣兒:我改(卑微)!安排~

total1 = pd.pivot_table(df,index='name',values='score',aggfunc='sum').rename({'score':'總分'},axis=1)
pd.pivot_table(df,index='name',columns='subject',values='score').join(total1)

行轉列,就這樣講完了,大家趕快動手實踐一下吧。那么,如何列轉行呢?!


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM