之前在實習時,teamleader想利用情感分析實現“公司績效考核”問題,即從Boss對員工的評語中判斷該員工該月的績效值,屬情感分析領域。
當時使用最簡單的基於情感詞典的方法解決,借鑒了這篇文章,在此基礎上對其進行修改,先講思路描述如下。
1 詞典准備
- 情感詞典(BosonNLP情感詞典)
- 停用詞典
- 否定詞典
- 程度副詞詞典
注:情感詞典內包含詞語以及對應的情感值;停用詞典只包含停用詞語;否定詞典只包含否定詞語;程度副詞詞典內包含詞語及對應的程度值。
2 實施步驟
整體步驟如下:
- 分詞(jieba),去停用詞;
- 構建詞語序列;
- 對詞語序列結果分類,找出情感詞、否定詞、程度副詞;
- 計算得分。
其中計算得分的具體步驟如下:
- 找出所有情感詞的下標,構建新詞組;
- 新詞組構建方法:該情感詞與前一情感詞之間的否定詞及程度副詞 + 該情感詞(第一個情感詞前至句首);
- 計算:程度副詞的程度值 × 情感詞的情感值,每有一個否定詞,使該式 × -1;
- 句子累加。
缺點:
- 沒有考慮詞義,特別對於“標題黨”來講,結果差距巨大。但這種情況都需要使用深度學習的方法才能有效解決,普通機器學習方法也是很難的。
- 對於正負向文本的判斷,該算法忽略了很多其他的否定詞、程度副詞和情感詞搭配的情況;用於判斷情感強弱也過於簡單。