一、課程簡介:
text mining and analytics 是一門在coursera上的公開課,由美國伊利諾伊大學香檳分校(UIUC)計算機系教授 chengxiang zhai 講授,公開課鏈接:https://class.coursera.org/textanalytics-001/wiki/view?page=Programming_Assignments_Overview。
二、課程大綱:
三、課程主要內容
3.1 Text representation
可以從以下幾個方面來對文本進行表示:
lexicon analysis 詞匯分析
syntactic analysis 句法分析
semantic analysis 語義分析
pragmatic analysis 實用性分析
文本表示有很多種方法:Multiple ways of representing text are possible
string, words, syntactic structures, entity-relation graphs, predicates…
這門公開課中,主要討論word 層面的文本表示方法,word relation analysis,topic analysis,sentiment analysis.
3.2 word association mining and analysis
(1)word 之間有兩種基本關系:Paradigmatic vs. Syntagmatic
Paradigmatic (詞形沒有變化)E.g., “cat” and “dog”; “Monday” and “Tuesday”
Syntagmatic:(組合關系) E.g., “cat” and “sit”; “car” and “drive”
這兩種關系的研究在很多NLP任務中都有重要的意義,如:位置標注,語法分析(parsing),實體識別,詞匯拓展。
(2)對這兩種關系的挖掘方法:
Paradigmatic ,文本內容的相似性
Syntagmatic,文本同時出現的概率
(3)分別介紹下兩種關系挖掘的方法
Paradigmatic Relation Discovery,相似詞的發現
word context 表示:bag of word、vector space model (VSM)
計算向量之間的相似度:(EOWC)
總結:相似詞的計算,步驟如下:
從文檔中表示兩個詞的相關詞袋;計算相關詞袋向量的相似度;選取相似度最高的詞。
在表示詞向量的方法中,BM25+IDF是the state of art.
Syntagmatic Relation Discovery: Entropy,組合關系的發現
熵:衡量變量X的隨機性
條件熵:
升序排列取top-k生成候選集
互信息 mutual information :I(X; Y)= H(X) – H(X|Y) = H(Y)-H(Y|X),倒序取top-k生成候選集
KL-divergence :KL散度( Kullback–Leibler divergence),又稱相對熵(relative entropy),是描述兩個概率分布P和Q差異的一種方法。在信息論中,D(P||Q)表示當用概率分布Q來擬合真實分布P時,產生的信息損耗,其中P表示真實分布,Q表示P的擬合分布。

