1.場景描述
因文本相似性熱度統計(python版)需求中要根據故障類型進行分組統計,需要對excel進行分組后再分詞統計,簡單記錄下,有需要的朋友可以直接拿走,不客氣!
2.解決方案
采用pandas包首先進行分組,然后獲取具體明細再進行分詞處理(分詞處理這里就不展開了),只介紹下python下excel分組,然后對具體明細進行處理。
2.1 完整代碼
import pandas as pd
if __name__ == '__main__':
inputfile = '軟件老王-source.xlsx'
data = pd.read_excel(inputfile)
grp1 = data.groupby('待分類列')
rcount = 1
for name, group in grp1:
print(group)
name = name.replace('\n', '').replace('/', '')
for i in range(len(group)):
row = group.iloc[i].values # 返回一個list
cell = row[1]
if cell is None:
continue
if not isinstance(cell, str):
continue
item = cell.strip('\n\r').split('\t')
string = item[0]
if string is None or len(string) == 0:
continue
else:
print('這里獲取group后明細值,軟件老王可以單獨處理,類別:' +name + '具體值:' + string)
2.2 執行效果
待分類列 原因
0 軟件老王1 主機不能加電
1 軟件老王1 有時不能加電
2 軟件老王1 開機加電
這里獲取group后明細值,軟件老王可以單獨處理,類別:軟件老王1具體值:主機不能加電
這里獲取group后明細值,軟件老王可以單獨處理,類別:軟件老王1具體值:有時不能加電
這里獲取group后明細值,軟件老王可以單獨處理,類別:軟件老王1具體值:開機加電
待分類列 原因
3 軟件老王2 自檢報錯或死機
4 軟件老王2 機器噪音大
這里獲取group后明細值,軟件老王可以單獨處理,類別:軟件老王2具體值:自檢報錯或死機
這里獲取group后明細值,軟件老王可以單獨處理,類別:軟件老王2具體值:機器噪音大
待分類列 原因
5 軟件老王3 噪音問題
這里獲取group后明細值,軟件老王可以單獨處理,類別:軟件老王3具體值:噪音問題
2.3 軟件老王-source.xlsx
待分類列 | 原因 |
---|---|
軟件老王1 | 主機不能加電 |
軟件老王1 | 有時不能加電 |
軟件老王1 | 開機加電 |
軟件老王2 | 自檢報錯或死機 |
軟件老王2 | 機器噪音大 |
軟件老王3 | 噪音問題 |
I’m 「軟件老王」,如果覺得還可以的話,關注下唄,后續更新秒知!歡迎討論區、同名公眾號留言交流!