1. df.head(n): 顯示數據前n行,不指定n,df.head則會顯示所有的行
2. df.columns.values獲取所有列索引的名稱
3. df.column_name: 直接獲取列column_name的數據
4. pd.unique(Series)獲取Series中元素的唯一值(即去掉重復的)
注意和nunique的區別,nunique只作用於Series,用法是Series.nunique()
可以看得出,nuinque()是查看該序列(axis=0/1對應着列或行)的不同值的數量。用這個函數可以查看數據有多少個不同值。
5. max,min可直接作用於Series取最大和最小值
6. pd.value_counts(Series)統計Series中不同元素出現的次數
7. df.groupby和agg的使用
(1)變量grouped是一個DataFrameGroupBy對象,它實際上還沒有進行任何計算,只是將數據進行了分組
(2)可以使用agg對分組好的數據進行處理,傳入的參數為函數,返回一個標量結果。使用自定義的函數時應加引號。
下圖的例子是對分組好的數據按每列求平均值。
(3)agg的參數可以傳入多個函數
(4)還可以指定對不同的列使用不同的函數進行處理
8. df.index獲取行索引
9. 使用條件篩選:下列例子中的三個條件criteria1表示fuelType1中的元素滿足isin([]),criteria2表示fuelType2中的元素滿足isnull(),
criteria3表示atvType中的元素不等於‘Hybrid’,vehicles_non_hybrid = vehicles[criteria1&criteria2&criteria3]表示vehicles_non_hybrid
是vehicles同時滿足這三個條件篩選出來的數據。

10. pandas.DataFrame.reset_index(level=None, drop=False, inplace=False, col_level=0, col_fill='')
參見http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.reset_index.html
路雖遠,行必達!
