【轉】用python實現簡單的文本情感分析

本文轉載自查看原文 2017-04-29 14:17 22322 情感分析/ python

import jieba
import numpy as np

# 打開詞典文件，返回列表
def open_dict(Dict='hahah',path = r'/Users/zhangzhenghai/Downloads/Textming/'):
    path = path + '%s.txt' %Dict
    dictionary = open(path, 'r', encoding='utf-8')
    dict = []
    for word in dictionary:
        word = word.strip('\n')
        dict.append(word)
    return dict

def judgeodd(num):
    if num % 2 == 0:
        return 'even'
    else:
        return 'odd'

deny_word = open_dict(Dict='否定詞')
posdict = open_dict(Dict='positive')
negdict = open_dict(Dict = 'negative')

degree_word = open_dict(Dict = '程度級別詞語',path=r'/Users/zhangzhenghai/Downloads/Textming/')
mostdict = degree_word[degree_word.index('extreme')+1: degree_word.index('very')] #權重4，即在情感前乘以3
verydict = degree_word[degree_word.index('very')+1: degree_word.index('more')] #權重3
moredict = degree_word[degree_word.index('more')+1: degree_word.index('ish')]#權重2
ishdict = degree_word[degree_word.index('ish')+1: degree_word.index('last')]#權重0.5

def sentiment_score_list(dataset):
    seg_sentence = dataset.split('。')

    count1 = []
    count2 = []
    for sen in seg_sentence: # 循環遍歷每一個評論
        segtmp = jieba.lcut(sen, cut_all=False) # 把句子進行分詞，以列表的形式返回
        i = 0 #記錄掃描到的詞的位置
        a = 0 #記錄情感詞的位置
        poscount = 0 # 積極詞的第一次分值
        poscount2 = 0 # 積極反轉后的分值
        poscount3 = 0 # 積極詞的最后分值（包括嘆號的分值）
        negcount = 0
        negcount2 = 0
        negcount3 = 0
        for word in segtmp:
            if word in posdict: # 判斷詞語是否是情感詞
                poscount +=1
                c = 0
                for w in segtmp[a:i]: # 掃描情感詞前的程度詞
                    if w in mostdict:
                        poscount *= 4.0
                    elif w in verydict:
                        poscount *= 3.0
                    elif w in moredict:
                       poscount *= 2.0
                    elif w in ishdict:
                        poscount *= 0.5
                    elif w in deny_word: c+= 1
                if judgeodd(c) == 'odd': # 掃描情感詞前的否定詞數
                    poscount *= -1.0
                    poscount2 += poscount
                    poscount = 0
                    poscount3 = poscount + poscount2 + poscount3
                    poscount2 = 0
                else:
                    poscount3 = poscount + poscount2 + poscount3
                    poscount = 0
                a = i+1
            elif word in negdict: # 消極情感的分析，與上面一致
                negcount += 1
                d = 0
                for w in segtmp[a:i]:
                    if w in mostdict:
                        negcount *= 4.0
                    elif w in verydict:
                        negcount *= 3.0
                    elif w in moredict:
                        negcount *= 2.0
                    elif w in ishdict:
                        negcount *= 0.5
                    elif w in degree_word:
                        d += 1
                if judgeodd(d) == 'odd':
                    negcount *= -1.0
                    negcount2 += negcount
                    negcount = 0
                    negcount3 = negcount + negcount2 + negcount3
                    negcount2 = 0
                else:
                    negcount3 = negcount + negcount2 + negcount3
                    negcount = 0
                a = i + 1
            elif word == '！' or word == '!': # 判斷句子是否有感嘆號
                for w2 in segtmp[::-1]: # 掃描感嘆號前的情感詞，發現后權值+2，然后退出循環
                    if w2 in posdict or negdict:
                        poscount3 += 2
                        negcount3 += 2
                        break
            i += 1

            # 以下是防止出現負數的情況
            pos_count = 0
            neg_count = 0
            if poscount3 <0 and negcount3 > 0:
                neg_count += negcount3 - poscount3
                pos_count = 0
            elif negcount3 <0 and poscount3 > 0:
                pos_count = poscount3 - negcount3
                neg_count = 0
            elif poscount3 <0 and negcount3 < 0:
                neg_count = -pos_count
                pos_count = -neg_count
            else:
                pos_count = poscount3
                neg_count = negcount3
            count1.append([pos_count,neg_count])
        count2.append(count1)
        count1=[]

    return count2

def sentiment_score(senti_score_list):
    score = []
    for review in senti_score_list:
        score_array =  np.array(review)
        Pos = np.sum(score_array[:,0])
        Neg = np.sum(score_array[:,1])
        AvgPos = np.mean(score_array[:,0])
        AvgPos = float('%.lf' % AvgPos)
        AvgNeg = np.mean(score_array[:, 1])
        AvgNeg = float('%.1f' % AvgNeg)
        StdPos = np.std(score_array[:, 0])
        StdPos = float('%.1f' % StdPos)
        StdNeg = np.std(score_array[:, 1])
        StdNeg = float('%.1f' % StdNeg)
        score.append([Pos,Neg,AvgPos,AvgNeg,StdPos,StdNeg])
    return score

data = '用了幾天又來評價的，手機一點也不卡，玩榮耀的什么的不是問題，充電快，電池夠大，玩游戲可以玩幾個小時，待機應該可以兩三天吧，很贊'
data2 = '不知道怎么講，真心不怎么喜歡，通話時聲音小，新手機來電話竟然卡住了接不了，原本打算退，剛剛手機摔了，又退不了，感覺不會再愛，像素不知道是我不懂還是怎么滴 感覺還沒z11mini好，哎要我怎么評價 要我如何喜歡努比亞 太失望了'

print(sentiment_score(sentiment_score_list(data)))
print(sentiment_score(sentiment_score_list(data2)))

情感分析簡介：

情感分析就是分析一句話說得是很主觀還是客觀描述，分析這句話表達的是積極的情緒還是消極的情緒。

原理
比如這么一句話：“這手機的畫面極好，操作也比較流暢。不過拍照真的太爛了！系統也不好。”
① 情感詞
要分析一句話是積極的還是消極的，最簡單最基礎的方法就是找出句子里面的情感詞，積極的情感詞比如：贊，好，順手，華麗等，消極情感詞比如：差，爛，壞，坑爹等。出現一個積極詞就+1，出現一個消極詞就-1。
里面就有“好”，“流暢”兩個積極情感詞，“爛”一個消極情感詞。那它的情感分值就是1+1-1+1=2. 很明顯這個分值是不合理的，下面一步步修改它。
② 程度詞
“好”，“流暢”和‘爛“前面都有一個程度修飾詞。”極好“就比”較好“或者”好“的情感更強，”太爛“也比”有點爛“情感強得多。所以需要在找到情感詞后往前找一下有沒有程度修飾，並給不同的程度一個權值。比如”極“，”無比“，”太“就要把情感分值*4，”較“，”還算“就情感分值*2，”只算“，”僅僅“這些就*0.5了。那么這句話的情感分值就是：4*1+1*2-1*4+1=3
③ 感嘆號
可以發現太爛了后面有感嘆號，嘆號意味着情感強烈。因此發現嘆號可以為情感值+2. 那么這句話的情感分值就變成了：4*1+1*2-1*4-2+1 = 1
④ 否定詞
明眼人一眼就看出最后面那個”好“並不是表示”好“，因為前面還有一個”不“字。所以在找到情感詞的時候，需要往前找否定詞。比如”不“，”不能“這些詞。而且還要數這些否定詞出現的次數，如果是單數，情感分值就*-1，但如果是偶數，那情感就沒有反轉，還是*1。在這句話里面，可以看出”好“前面只有一個”不“，所以”好“的情感值應該反轉，*-1。
因此這句話的准確情感分值是：4*1+1*2-1*4-2+1*-1 = -1
⑤ 積極和消極分開來
再接下來，很明顯就可以看出，這句話里面有褒有貶，不能用一個分值來表示它的情感傾向。而且這個權值的設置也會影響最終的情感分值，敏感度太高了。因此對這句話的最終的正確的處理，是得出這句話的一個積極分值，一個消極分值（這樣消極分值也是正數，無需使用負數了）。它們同時代表了這句話的情感傾向。所以這句評論應該是”積極分值：6，消極分值：7“
⑥ 以分句的情感為基礎
再仔細一步，詳細一點，一條評論的情感分值是由不同的分句加起來的，因此要得到一條評論的情感分值，就要先計算出評論中每個句子的情感分值。這條例子評論有四個分句，因此其結構如下（[積極分值, 消極分值]）：[[4, 0], [2, 0], [0, 6], [0, 1]]
以上就是使用情感詞典來進行情感分析的主要流程了，算法的設計也會按照這個思路來實現。
算法設計
第一步：讀取評論數據，對評論進行分句。
第二步：查找對分句的情感詞，記錄積極還是消極，以及位置。
第三步：往情感詞前查找程度詞，找到就停止搜尋。為程度詞設權值，乘以情感值。
第四步：往情感詞前查找否定詞，找完全部否定詞，若數量為奇數，乘以-1，若為偶數，乘以1。
第五步：判斷分句結尾是否有感嘆號，有嘆號則往前尋找情感詞，有則相應的情感值+2。
第六步：計算完一條評論所有分句的情感值，用數組（list）記錄起來。
第七步：計算並記錄所有評論的情感值。
第八步：通過分句計算每條評論的積極情感均值，消極情感均值，積極情感方差，消極情感方差。

轉自：https://zhuanlan.zhihu.com/p/23225934

原作者提供了下載鏈接: https://pan.baidu.com/s/1jIRoOxK 密碼: 6wq4

存粹轉發，留着以后自己用，后經試驗部分代碼健壯性差點（評論文字稍長，程序報錯），需要的時候再加固。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 TensorFlow實現文本情感分析詳解基於情感詞典的文本情感分析文本情感分析基於 Spark 的文本情感分析 Python 使用 NLTK 實現簡單情感分析--Twitter（推特）分析情感分析資源（轉） Python 文本挖掘：使用情感詞典進行情感分析（算法及程序設計）文本挖掘之文本情感分析文本挖掘之情感分析（一）如何用Python做情感分析？