Pandas之Dataframe索引,排序,統計,重新設置索引
一:疊加
import pandas as pd a_list = [df1,df2,df3] add_data = pd.concat(a_list,ignore_index = True)
其中的ignore_index參數代表是否重新建立索引。
如果df比較多,可以采用如下方法建立a_list
a_list = [] for i in range(len(df)): a_list.append(df[i])
二:排序
df.sort_values(by=["B","A"] , ascending=(False,False))
df.sort_values(by=["A","B"] , ascending=(False,False))
這兩個表達式結果不一樣,第一個是先按B排的基礎上,當B一樣時再按A排,第二個是先按照A排完再按B排。
其中ascending默認是FALSE,即默認會按照相應的by中的第幾個元素降序排序,當希望用第幾個元素升序排序時,可以設置成TRUE
三:統計
df["A"].value_counts()#對A列進行統計,計數然后生成一個只有一個A值和對應計數值。
這個是統計A列中的唯一值有多少。
如果統計多列的計數值,可以采用如下方法
1 a = [["None" for col in range(3)] for row in 2 range(len(df["A"]*len(df["B"]) 3 k = 0 4 for i in range(len(df["A"]): 5 for j in range(len(df["B"]): 6 a[k][0] = df.A[i] 7 a[k][1] = df.B[j] 8 data_select = df[df.A==x[i]&df.B==x[j]] 9 a[k][2] = len(data_select) 10
df["A"].unique()
這個會直接取出A列中的唯一值
四、重新設置索引
df = df.reset_index(drop = True)
重新設置行索引
