在實際應用中,經常需要把統計一段字符中,每個詞出現的次數,也就是詞頻。統計次數有一個現成的方法就是DataFrame.value_counts(),問題是如何保存結果為我們所用。思路就是把value_counts的兩列先分別轉成列表,再講兩個列表轉成字典。
import pandas as pd data = pd.DataFrame({'a':['a','b','c','a']}) data_counts = data.a.value_counts() #通過value_counts計算詞頻 df_data_counts = pd.DataFrame(data_counts) #將詞頻結果轉成DataFrame格式。 # 但是需要注意,轉成的DataFrame的索引是需要被統計的詞,列是詞出現的次數 print(df_data_counts.index.values.tolist()) #把詞轉成列表 print(df_data_counts['a'].tolist()) #把詞出現的次數轉成列表 print(dict(zip(df_data_counts.index.values.tolist(),df_data_counts.a.tolist()))) #轉成字典