pandas取dataframe特定行/列

本文转载自查看原文 2021-05-23 19:56 1127

import pandas as pd
data = pd.DataFrame({'a':[1,2,3],'b':[4,5,6],'c':[7,8,9]})
提取列
单列
data['a']

多列
data[['a', 'b']]

使用 .loc或者 .iloc 提取
第一个参数是行，第二个参数为列

.loc为按标签提取， .iloc为按位置索引提取

data.loc[:, 'a'] # 等价于data.iloc[:, 0]
data.loc[:, ['a', 'b']] # 等价于data.iloc[:, [0, 1]]

提取行
提取行的时候，一般只能使用 .loc 和 .iloc 来提取，个人是比较喜欢使用 .loc

提取某些行
# 提取一行
data.loc[1] # 标签索引
Out[35]:
a 2
b 5
c 8
Name: 1, dtype: int64

data.iloc[1] # 位置索引
Out[36]:
a 2
b 5
c 8

# 提取多行
data.loc[:1]
Out[37]:
a b c
0 1 4 7
1 2 5 8

data.loc[[0,1]]
Out[38]:
a b c
0 1 4 7
1 2 5 8
行列一起使用

data.loc[0:1, 'b']
Out[40]:
0 4
1 5
按匹配条件提取多行
这种方法是按照某些列符合某种条件，然后提取多行

单条件

多条件

# 这两种方法得到的结果是一致的，推荐使用第二种

# 与条件不能使用 and
data[(data['a']<=2) & (data['b']>=5)]
data.loc[(data['a']<=2) & (data['b']>=5)]

# 或条件不能使用 or
data[(data['a']<=2) | (data['b']>=5)]
data.loc[(data['a']<=2) | (data['b']>=5)]

1.按列取、按索引/行取、按特定行列取

 
    
     
       
       
         import  
         numpy as np 
        
 
         from  
         pandas  
         import  
         DataFrame 
        
 
         import  
         pandas as pd 
        

            
        

            
        
 
         df 
         = 
         DataFrame(np.arange( 
         12 
         ).reshape(( 
         3 
         , 
         4 
         )),index 
         = 
         [ 
         'one' 
         , 
         'two' 
         , 
         'thr' 
         ],columns 
         = 
         list 
         ( 
         'abcd' 
         )) 
        

            
        
 
         df[ 
         'a' 
         ] 
         #取a列 
        
 
         df[[ 
         'a' 
         , 
         'b' 
         ]] 
         #取a、b列 
        

            
        
 
         #ix可以用数字索引，也可以用index和column索引 
        
 
         df.ix[ 
         0 
         ] 
         #取第0行 
        
 
         df.ix[ 
         0 
         : 
         1 
         ] 
         #取第0行 
        
 
         df.ix[ 
         'one' 
         : 
         'two' 
         ] 
         #取one、two行 
        
 
         df.ix[ 
         0 
         : 
         2 
         , 
         0 
         ] 
         #取第0、1行，第0列 
        
 
         df.ix[ 
         0 
         : 
         1 
         , 
         'a' 
         ] 
         #取第0行，a列 
        
 
         df.ix[ 
         0 
         : 
         2 
         , 
         'a' 
         : 
         'c' 
         ] 
         #取第0、1行，abc列 
        
 
         df.ix[ 
         'one' 
         : 
         'two' 
         , 
         'a' 
         : 
         'c' 
         ] 
         #取one、two行，abc列 
        
 
         df.ix[ 
         0 
         : 
         2 
         , 
         0 
         : 
         1 
         ] 
         #取第0、1行，第0列 
        
 
         df.ix[ 
         0 
         : 
         2 
         , 
         0 
         : 
         2 
         ] 
         #取第0、1行，第0、1列 
        

            
        
 
         #loc只能通过index和columns来取，不能用数字 
        
 
         df.loc[ 
         'one' 
         , 
         'a' 
         ] 
         #one行，a列 
        
 
         df.loc[ 
         'one' 
         : 
         'two' 
         , 
         'a' 
         ] 
         #one到two行，a列 
        
 
         df.loc[ 
         'one' 
         : 
         'two' 
         , 
         'a' 
         : 
         'c' 
         ] 
         #one到two行，a到c列 
        
 
         df.loc[ 
         'one' 
         : 
         'two' 
         ,[ 
         'a' 
         , 
         'c' 
         ]] 
         #one到two行，ac列 
        

            
        
 
         #iloc只能用数字索引，不能用索引名 
        
 
         df.iloc[ 
         0 
         : 
         2 
         ] 
         #前2行 
        
 
         df.iloc[ 
         0 
         ] 
         #第0行 
        
 
         df.iloc[ 
         0 
         : 
         2 
         , 
         0 
         : 
         2 
         ] 
         #0、1行，0、1列 
        
 
         df.iloc[[ 
         0 
         , 
         2 
         ],[ 
         1 
         , 
         2 
         , 
         3 
         ]] 
         #第0、2行，1、2、3列 
        

            
        
 
         #iat取某个单值,只能数字索引 
        
 
         df.iat[ 
         1 
         , 
         1 
         ] 
         #第1行，1列 
        
 
         #at取某个单值,只能index和columns索引 
        
 
         df.at[ 
         'one' 
         , 
         'a' 
         ] 
         #one行，a列 
        
 
     
 
    
  

2.按条件取行

 
        选取等于某些值的行记录 用  
        = 
        = 
       
        df.loc[df[‘column_name’]  
        = 
        =  
        some_value] 
       
        选取某列是否是某一类型的数值 用 isin 
       
        df.loc[df[‘column_name’].isin(some_values)] 
       
        多种条件的选取 用 & 
       
        df.loc[(df[‘column’]  
        = 
        =  
        some_value) & df[‘other_column’].isin(some_values)] 
       
        选取不等于某些值的行记录 用 ！ 
        = 
       
        df.loc[df[‘column_name’] ! 
        =  
        some_value] 
       
        isin返回一系列的数值,如果要选择不符合这个条件的数值使用~ 
       
        df.loc[~df[‘column_name’].isin(some_values)]

3.取完之后替换

 
   
    
      
      
        df  
        =  
        pd.DataFrame({ 
        "id" 
        : [ 
        25 
        , 
        53 
        , 
        15 
        , 
        47 
        , 
        52 
        , 
        54 
        , 
        45 
        , 
        9 
        ],  
        "sex" 
        :  
        list 
        ( 
        'mfmfmfmf' 
        ),  
        'score' 
        : [ 
        1.2 
        ,  
        2.3 
        ,  
        3.4 
        ,  
        4.5 
        , 
        6.4 
        , 
        5.7 
        , 
        5.6 
        , 
        4.3 
        ], 
        "name" 
        :[ 
        'daisy' 
        , 
        'tony' 
        , 
        'peter' 
        , 
        'tommy' 
        , 
        'ana' 
        , 
        'david' 
        , 
        'ken' 
        , 
        'jim' 
        ]}) 
       
 
    
 
   
 

将男性(m)替换为1，女性(f)替换为0

方法1：

注：在上面的代码中，逗号后面的‘sex’起到固定列名的作用

方法2：

4.删除特定行

 
        # 要删除列“score”<50的所有行： 
       
        df  
        =  
        df.drop(df[df.score <  
        50 
        ].index) 
       
        df.drop(df[df.score <  
        50 
        ].index, inplace 
        = 
        True 
        ) 
       
        # 多条件情况 
       
        # 可以使用操作符： | 只需其中一个成立, & 同时成立, ~ 表示取反，它们要用括号括起来。 
       
        # 例如删除列“score<50 和>20的所有行 
       
        df  
        =  
        df.drop(df[(df.score <  
        50 
        ) & (df.score >  
        20 
        )].index)

选取等于某些值的行记录用 ==
df.loc[df[‘column_name’] == some_value]

选取某列是否是某一类型的数值用 isin
df.loc[df[‘column_name’].isin(some_values)]

多种条件的选取用 &
df.loc[(df[‘column’] == some_value) & df[‘other_column’].isin(some_values)]

选取不等于某些值的行记录用！=
df.loc[df[‘column_name’] != some_value]

isin返回一系列的数值,如果要选择不符合这个条件的数值使用~
df.loc[~df[‘column_name’].isin(some_values)]
1

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 pandas取dataframe特定行/列 pandas.DataFrame删除/选取含有特定数值的行或列 pandas DataFrame行或列的删除方法 pandas.DataFrame对行和列求和及添加新行和列 pandas.DataFrame对行和列求和及添加新行和列转 [pandas] dataframe 根据特定值筛选行的方法 python – 基于pandas中的列中的值从DataFrame中选择行 pandas中DataFrame行、列显示不全解决方法 [译]在Pandas的Dataframe中删除行、列如何迭代pandas dataframe的行