1.導語
情感分類是情感分析技術的核心問題,其目標是判斷評論中的情感取向,按區分情感的粒度可分為兩種分類問題:
1)正/負(positive/negative)二分類或者正面/負面/中立(positive/negative/neutral)三分類。
2)多元分類,如對新聞評論進行“樂觀”、“悲傷”、“憤怒”、“驚訝”四元情感分類,對商品評論進行1星~5星五元情感分類等。
2.主流的情感分類方法分類
按技術路線分為5類:
1)基於詞典的方法
2)基於機器學習的方法
3)詞典與機器學習混合的方法
4)基於弱標注信息的方法
5)基於深度學習的方法
2.1 基於詞典(Lexicon-based)的情感分類方法
基於詞典方法的核心模式是“詞典+規則”,即以情感詞典作為判斷情感極性的主要依據,同時兼顧評論數據中的句法結構,設計相應的判斷規則(如but從句與主句情感極性相反)
基於詞典的情感分類方法本質上依賴於情感詞典和判斷規則的質量,而兩者都需要人工設計。因此這類方法的優劣很大程度上取決於人工設計和先驗知識,推廣能力較差。
2.2 基於機器學習的情感分類方法
基於機器學習技術的情感分類研究工作:
1)特征工程是此類研究工作的核心。情感分類任務中常用到的特征有n-gram特征(unigrams,bigrams,trigrams)、Part-of-Speech(POS)特征、句法特征、TF-IDF特征等,但是該方法依賴人工設計,受人為因素影響,推廣能力差,在某一領域表現優秀的特征不一定在其他領域也表現優秀
2)基於機器學習的情感分類方法多使用經典分類模型如支持向量機、朴素貝葉斯、最大熵模型等,其中多數分類模型的性能依賴於標注數據集的質量,而獲取高質量的標注數據需要耗費大量的人工成本。
2.3 詞典與機器學習混合的情感分類方法
這種混合的思路有兩種:
1)將“詞典+規則”視為簡單的分類器,然后融合多種不同分類器進行情感分類
2)將詞典信息作為一種特征與現有特征(句法特征、POS特征等)進行結合,然后選擇最優的特征組合進行情感分類。
2.4 基於弱標注信息的情感分類方法
從用戶產生的數據中挖掘有助於訓練情感分類器的信息,如評論的評分、微博中的表情符號等。由於互聯網用戶的“標注”行為沒有統一標准,具有較大的隨意性,所以將這種標注信息稱為弱標注信息。
2.5 基於深度學習的情感分類方法
針對情感分類問題的機器學習方法有兩個步驟:
1)從海量評論語料中學習出語義詞向量
2)通過不同的語義合成方法用詞向量得到所對應句子或文檔的特征表達。