4 series、Dataframe基本信息描述及統計(維度、形狀、均值、求和、協方差、相關系數、排名)


4.1 series對象的查看

s = pd.Series(np.random.randn(5))
s.axes#索引信息
s.empty#判斷整體是否為空
s.ndim#返回對象維度
s.size#返回對象長度,或則說元素個數
s.values#以數組形式返回系列中的實際數據值

4.2 Dataframe對象的查看

d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Minsu','Jack']),
   'Age':pd.Series([25,26,25,23,30,29,23]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}

df = pd.DataFrame(d)
df
df.T
df.axes#返回行索引及列標簽相關信息
df.dtypes
df.empty
df.ndim
df.shape#返回規模形狀
df.size#返回所有值的個數
df.values

4.3 Dataframe對象的描述性統計

d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Minsu','Jack',
   'Lee','David','Gasper','Betina','Andres']),
   'Age':pd.Series([25,26,25,23,30,29,23,34,40,30,51,46]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8,3.78,2.98,4.80,4.10,3.65])}

df = pd.DataFrame(d)
df.sum()#直接調用將對每一列求和,字符列將直接合並
df.sum(1)#對行求和
df.sum(0)#對列進行求和
df.mean()
df.std()
df.describe()#默認匯總所有數字列,include=['number']
df.describe(include=['object'])#數值型變量(include=['number']),離散型變量(include=['object'])
df.describe(include='all')

 4.4 Dataframe對象的協方差、相關系數、排名

s = pd.Series(list(range(1,5))+[4]) #list后直接添加[4]相當於list新增了元素4
s.pct_change()#計算后一個元素比前一個元素變化的百分比

s1 = pd.Series(np.random.randn(10))
s2 = pd.Series(np.random.randn(10))
s1.cov(s2)

frame = pd.DataFrame(np.random.randn(10, 5), columns=['a', 'b', 'c', 'd', 'e'])
frame['a'].cov(frame['b'])
frame.cov()#直接計算各列的協方差

frame['a'].corr(frame['b'])
frame.corr()

s = pd.Series(np.random.randn(5), index=list('abcde'))
s['d']=s['b']
s.rank()#獲得各行的排名信息,並列4名則均顯示為第4.5名


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM