劉勇 Email: lyssym@sina.com
本博客記錄作者在工作與研究中所經歷的點滴,一方面給自己的工作與生活留下印記,另一方面若是能對大家有所幫助,則幸甚至哉矣!
簡介
文本分類方法大部分使用基於模型的分類,基本上可以分為兩大類:1)基於規則的分類方法,采用為類別集合的每個類別確定分類規則,然后根據類別模板統計待分類文本,確定該文本所屬類別。基於規則的文本分類方法主要有:決策樹、關聯規則和粗糙集等;2)基於統計的分類方法,使用分類模型自動根據訓練集中的信息自動學習,從而構造出文本特征和類別之間的對應關系模型,利用訓練好的模型對待分類文本進行分類。基於統計的文本分類方法主要有:朴素貝葉斯、支持向量機、K均值等。
基於規則的分類方法采用特定的分類規則,比較理性,符合行為認知;基於統計的分類方法依賴機器學習的經驗,根據概率統計方法確定分類,能取得較好的分類效果。從整體上看,基於規則和統計的分類方法各有千秋,目前的主要研究方向為采用兩者的結合,提高分類的精確度。
需要指出,本文為貫通Web數據抓取和文本處理環節,采用基於規則的分類方法實現情感分析算法。
算法設計
情感分析架構圖
圖1 情感分析框架圖
鑒於目前文本處理多數集中於句子級分析,因此本文也采用句子級分析方式,其處理過程主要分為語句提取、特定詞抽取、句法分析以及計算評分。簡要描述如下:
1) 語句提取:根據中文文本的特點,以句號、問號以及感嘆號對文本進行分割。
2) 特定詞抽取:針對句子,抽取其中的連詞以及否定詞,從而輔助判斷情感分析。
3) 句法分析:根據連詞確定句子前后的分詞權重,針對否定詞確定極性反轉或雙重否定識別。
4) 計算評分:根據情感詞匯庫以及句法分析結構,綜合計算該句子評分。
特定詞提取
1) 連詞
根據參考文獻分析,在情感分析時,有指示特征的連詞特征為:
並列連詞:前后句子極性一致;
選擇連詞:前后句子極性一般一致;
遞進連詞:前后句子極性一般一致,后句稍加強烈;
轉折連詞:前后句子極性相反,后句更加強烈。
其它連詞類型對情感傾向不敏感,目前暫不予考慮。若后期對算法優化,可以予以增加。
表1 連詞及其關聯權重
| 標識 | 關系類型 | 前句權重 | 后句權重 | 舉例 |
| 1 | 並列關系 | 0.5 | 0.5 | 既,又 |
| 2 | 選擇關系 | 0.5 | 0.5 | ,或者 |
| 3 | 遞進關系 | 0.4 | 0.6 | 不但,而且 |
| 4 | 轉折關系 | 0.2 | 0.8 | 雖然,但是 |
| 5 | 選擇關系 | 0.4 | 0.6 | 與其,寧肯 |
| 6 | 選擇關系 | 0.6 | 0.4 | 寧願,絕不 |
如表1所示,為本文算法采用的連詞及其關聯權重,判斷前句與后句的主要以第二個連詞作為區分;若僅有一個連詞,則以該唯一連詞作為區分對象。
2) 否定詞
否定詞在文本中具有獨特的語法意義和影響,一般情況下,被否定詞修飾的詞匯一般會改變情感極性。此外,由於中文中存在多重否定的現象,鑒於雙重否定所占比例較大,本文算法僅考慮雙重否定該情形。
本文暫時擬定的否定詞為:不、無、非、莫、勿、未、不要、不必、沒有等。若后期對算法進行優化,則視情形進行增加與刪減。
評分計算
本文情感極性詞匯庫采用大連理工大學情感詞匯本體,根據實際應用需求,對該詞匯庫進行補充與修正,同時引入連詞規則以及否定詞等進行輔助計算。
計算過程為:
1) 將Web文本進行分句,使其以句子為單位進行處理;
2) 從分句中抽取連詞和否定詞,並標記相應連詞與否定詞位置;
3) 訪問情感詞匯本體,確定詞匯極性及其強度;
4) 針對連詞(若有),通過連詞連詞位置,確定前句與后句所占比重,針對否定詞(若有),根據否定詞位置判斷雙重否定,以及臨近詞匯的極性反轉;若不包含連詞或者否定詞,則略過該步驟;
5) 累加本句情感計算評分;
6) 循環訪問步驟2)至步驟5)計算該Web文本的評分,若為正則為正面,若為負則為負面,否則為中性。
展望
本文算法目前采用基於規則的分類方法,通過引入關聯規則(連詞、否定詞)對句子進行分析,計算出其情感傾向,進而引申至全文的情感傾向。從應用的角度,該方法能滿足用戶一般性需求。
另一方面,由於漢語語法復雜,而且涉及的規則呈現多樣化、復雜化,若要獲取精確的情感分類,采用基於統計的方法與基於規則的方法相結合,將是后期進行優化的研究方向。
參考文獻
[1] 李亞珍,李曉戈,於根. 基於中文股票博客的情感分類[J]. 武漢大學學報(理學版): 2015, 61(2):163-168.
[2] 李實,葉強,李一軍等. 挖掘中文網絡客戶評論的產品特征及情感傾向[J]. 計算機應用研究:2010, 27(8):3016 -3019.
[3] 烏達巴拉,汪增福. 一種擴展式CRFs的短語情感傾向性分析方法研究[J]. 中文信息學報:2015, 29(1):155-162.
作者:志青雲集
出處:http://www.cnblogs.com/lyssym/p/4880896.html
如果,您認為閱讀這篇博客讓您有些收獲,不妨點擊一下右下角的【推薦】。
如果,您希望更容易地發現我的新博客,不妨點擊一下左下角的【關注我】。
如果,您對我的博客所講述的內容有興趣,請繼續關注我的后續博客,我是【志青雲集】。
本文版權歸作者和博客園共有,歡迎轉載,但未經作者同意必須保留此段聲明,且在文章頁面明顯位置給出原文連接。

