pandas 數據排序.sort_index()和.sort_values()


原文鏈接:https://www.jianshu.com/p/f0ed06cd5003

 

import pandas as pd
df = pd.DataFrame(……)
說明:以下“df”為DataFrame對象。

1. df. sort_values()

作用:既可以根據列數據,也可根據行數據排序。
注意:必須指定by參數,即必須指定哪幾行或哪幾列;無法根據index名和columns名排序(由.sort_index()執行)

調用方式

DataFrame.sort_values(by, axis=0, ascending=True, inplace=False, kind='quicksort', na_position='last')
axis:{0 or ‘index’, 1 or ‘columns’}, default 0,默認按照列排序,即縱向排序;如果為1,則是橫向排序。
by:str or list of str;如果axis=0,那么by="列名";如果axis=1,那么by="行名"。
ascending:布爾型,True則升序,如果by=['列名1','列名2'],則該參數可以是[True, False],即第一字段升序,第二個降序。
inplace:布爾型,是否用排序后的數據框替換現有的數據框。
kind:排序方法,{‘quicksort’, ‘mergesort’, ‘heapsort’}, default ‘quicksort’。似乎不用太關心。
na_position:{‘first’, ‘last’}, default ‘last’,默認缺失值排在最后面。

例:

原數據

df = pd.DataFrame({'b':[1,2,3,2],'a':[4,3,2,1],'c':[1,3,8,2]},index=[2,0,1,3]) 
    b   a   c
2   1   4   1
0   2   3   3
1   3   2   8
3   2   1   2

1.按b列升序排序

df.sort_values(by='b') #等同於df.sort_values(by='b',axis=0)
    b   a   c
2   1   4   1
0   2   3   3
3   2   1   2
1   3   2   8

2.先按b列降序,再按a列升序排序

df.sort_values(by=['b','a'],axis=0,ascending=[False,True]) 
    b   a   c
1   3   2   8
3   2   1   2
0   2   3   3
2   1   4   1

3.按行3升序排列

df.sort_values(by=3,axis=1) #必須指定axis=1
    a   b   c
2   4   1   1
0   3   2   3
1   2   3   8
3   1   2   2

4.按行3升序,行0降排列

df.sort_values(by=[3,0],axis=1,ascending=[True,False])
    a   c   b
2   4   1   1
0   3   3   2
1   2   8   3
3   1   2   2

注意:指定多列(多行)排序時,先按排在前面的列(行)排序,如果內部有相同數據,再對相同數據內部用下一個列(行)排序,以此類推。如何內部無重復數據,則后續排列不執行。即首先滿足排在前面的參數的排序,再排后面參數

2. df. sort_index()

作用:默認根據行標簽對所有行排序,或根據列標簽對所有列排序,或根據指定某列或某幾列對行排序。
注意:df. sort_index()可以完成和df. sort_values()完全相同的功能,但python更推薦用只用df. sort_index()對“根據行標簽”和“根據列標簽”排序,其他排序方式用df.sort_values()。

調用方式

sort_index(axis=0, level=None, ascending=True, inplace=False, kind='quicksort', na_position='last', sort_remaining=True, by=None)
axis:0按照行名排序;1按照列名排序
level:默認None,否則按照給定的level順序排列---貌似並不是,文檔
ascending:默認True升序排列;False降序排列
inplace:默認False,否則排序之后的數據直接替換原來的數據框
kind:排序方法,{‘quicksort’, ‘mergesort’, ‘heapsort’}, default ‘quicksort’。似乎不用太關心。
na_position:缺失值默認排在最后{"first","last"}
by:按照某一列或幾列數據進行排序,但是by參數貌似不建議使用

例:

源數據

import pandas as pd  
df = pd.DataFrame({'b':[1,2,2,3],'a':[4,3,2,1],'c':[1,3,8,2]},index=[2,0,1,3]) 
    b   a   c
2   1   4   1
0   2   3   3
1   3   2   8
3   2   1   2

1.默認按“行標簽”升序排列(推薦)

df.sort_index() #默認按“行標簽”升序排序,或df.sort_index(axis=0, ascending=True)
    b   a   c
0   2   3   3
1   3   2   8
2   1   4   1
3   2   1   2

2.按“列標簽”升序排列(推薦)

df.sort_index(axis=1) #按“列標簽”升序排序
    a   b   c
2   4   1   1
0   3   2   3
1   2   3   8
3   1   2   2

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM