4.1 series對象的查看
s = pd.Series(np.random.randn(5)) s.axes#索引信息 s.empty#判斷整體是否為空 s.ndim#返回對象維度 s.size#返回對象長度,或則說元素個數 s.values#以數組形式返回系列中的實際數據值
4.2 Dataframe對象的查看
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Minsu','Jack']),
'Age':pd.Series([25,26,25,23,30,29,23]),
'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
df = pd.DataFrame(d)
df
df.T
df.axes#返回行索引及列標簽相關信息
df.dtypes
df.empty
df.ndim
df.shape#返回規模形狀
df.size#返回所有值的個數
df.values
4.3 Dataframe對象的描述性統計
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Minsu','Jack',
'Lee','David','Gasper','Betina','Andres']),
'Age':pd.Series([25,26,25,23,30,29,23,34,40,30,51,46]),
'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8,3.78,2.98,4.80,4.10,3.65])}
df = pd.DataFrame(d)
df.sum()#直接調用將對每一列求和,字符列將直接合並
df.sum(1)#對行求和
df.sum(0)#對列進行求和
df.mean()
df.std()
df.describe()#默認匯總所有數字列,include=['number']
df.describe(include=['object'])#數值型變量(include=['number']),離散型變量(include=['object'])
df.describe(include='all')
4.4 Dataframe對象的協方差、相關系數、排名
s = pd.Series(list(range(1,5))+[4]) #list后直接添加[4]相當於list新增了元素4 s.pct_change()#計算后一個元素比前一個元素變化的百分比 s1 = pd.Series(np.random.randn(10)) s2 = pd.Series(np.random.randn(10)) s1.cov(s2) frame = pd.DataFrame(np.random.randn(10, 5), columns=['a', 'b', 'c', 'd', 'e']) frame['a'].cov(frame['b']) frame.cov()#直接計算各列的協方差 frame['a'].corr(frame['b']) frame.corr() s = pd.Series(np.random.randn(5), index=list('abcde')) s['d']=s['b'] s.rank()#獲得各行的排名信息,並列4名則均顯示為第4.5名
