在pandas里對於數值字段而言,groupby后可以用sum()、max()等方法進行簡單的處理,對於字符串字段, 如果把它們的值拼接在一起,可以用使用 str.cat() 和 lamda 方法。
如,將下面表格中的內容,對skill字段按照id進行分組合並。
實現代碼:
import pandas as pd file_name = 'a.csv' df = pd.read_csv(file_name) data = df.groupby('id')['skill'].apply( lambda x: x.str.cat(sep=':')) print(data)
效果如下:
另,數據處理時,常常需要將某一列進行拆分,分列,替換等,相關的函數有str.split()、str.extract()、str.replace()。