詞典包括情感詞典、程度詞典、否定詞典和連詞詞典,其中情感詞典最為重要,程度詞典和否定詞典用於識別修飾情感詞語的成分,連詞詞典用於識別句際關系.
1.情感詞典
以情感詞匯本體為主要資源,結合HowNet情感分析用中文詞集、中文褒貶義詞典 和學生褒貶義詞,經過整合、去重、轉換和補充得到含有28567個詞語的情感詞典,每個詞語標注詞性、極性(1為褒義詞、-1為貶義詞、0為中性詞)、強度(分為5檔,5表示強度最大,1表示強度最小)等信息.結合詞語的極性以及強度可以度量詞語的情感值.
2.程度詞典
根據HowNet中文程度級別詞語整理程度詞典,共計140個程度詞語,如“很”、“非常”,用符號deg 表示,為每個程度詞語設定權重Weight(deg).根據HowNet將表達“極其、最”意義的權重設為5、
“很”意義的權重設為4、“較”意義的權重設為3、“稍微、一點”意義的權重設為2.
3.否定詞典
HowNet中的否定詞語含有“negation”義項,根據該義項找到否定詞語,再添加一些常用的否定詞語,如網絡用語“木有”,共計65個.否定詞語用符號neg 表示,若將否定詞語看作特殊的程度詞語,有Degree(neg)=-1.
4.連詞詞典
句子之間的主從關系包括總結(或結果)、讓步、轉折、假設、目的和條件等,會體現句子情感表達的側重.從句子情感而言,總結或轉折子句的情感最為重要,讓步子句的情感相對不重要,而假設、目的和條件子句一般認為不體現情感.從語料中篩選出60個連詞並標注主從關系,如“但是”表轉折.
摘自:否定句的情感不確定性度量及分類