微博情感分析(一)


     話說微博面世已經很久了,但對於微博信息的挖掘卻才剛剛起步,這其中的原因當然有信息挖掘的技術還不成熟,但我覺得主要問題還是在於中文信息處理的技術還處於萌芽的階段。中文語言本身信息量就很大,歧義性詞匯多,再加上微博語言語義不整、微博媒介本體中夾雜着大量的標簽,導致微博技術發展緩慢。在現在的網絡上,用戶通過網絡主動地表達自己的觀點或對其他人或事件的態度,主觀性強;微博載體規定的語言只有140字,使信息在微博中呈現出碎片化、即時化和移動化的特性,而不再是具有完整的上下文信息。通過微博自由、便捷、即時地抒發自己的情感,已成為互聯網上的時尚,同時也使得其成為熱點事件產生和談論的重要場所,其中熱點事件指某一時間內被廣泛關注、爭論、議論的事件、話題或者信息,因此對微博平台中熱點事件的發現、監控及管理等方面的研究就顯得很重要。
      微博作為一種新興媒體,有它獨特的文本結構形式。話題型微博指的是圍繞某一話題即標簽闡發意見、進行討論的微博形式,因此在觀點句的使用、表達觀點使用的語言手段以及評價對象的隱現上也有與眾不同的特點。
      我覺得“究竟140個字能表達多少情感”這個問題非常值得討論。可能在大多數情況下,對於一個事件的討論僅僅簡單的敘述就要超過140了,更別提表達一種深刻的意見。用戶對於事件的評論更多的是一種調侃而並非真正的評論,這就導致了兩方面的問題:第一,在無法全面表達出用戶對問題的態度的前提下,用戶發表的評論微博能不能反映用戶的真實情感態度;第二,由於用戶情感表達不全面,可能用戶發表的情感微博反而成為了用戶潛意識的第一情感,而在這個階段可能還需要對用戶進行心理學、行為學上的分析,這也就超出了“微博情感分析”的范圍了。所以,如果要想真正的挖掘出用戶情感的傾向,用戶的心理、性格和習慣應該有很大的影響比例。
      再深入一點,由於只能輸入140字,用戶必須在有限的空間內表達出自己的態度,用戶會不會在大多數的評論中出現詞匯簇的共線?如果能找到用戶評論的詞匯共線鏈,我覺得這就能對用戶的性格和心理做出一定的分析。因為文本不同於表達,表達往往反映一個人的性格,而文本卻能反映出一個人的心理動態,其實往往心理動態才能決定人的行為。話題再回到微博。微博中是有標簽的,因為標簽的存在,導致微博主體中會大量的缺失主語和賓語,比如:“#汽油漲價#我很想說臟話”;或者“#明星整容#丟臉!”第一句就缺失了第二賓語,而第二句中缺失了主語。在對微博做情感分析的時候,標簽的比重是具有導向性的,我覺得這是一個比較不錯的課題。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM