coursera 公開課 文本挖掘和分析(text mining and analytics) week 1 筆記


一、課程簡介:

text mining and analytics 是一門在coursera上的公開課,由美國伊利諾伊大學香檳分校(UIUC)計算機系教授 chengxiang zhai 講授,公開課鏈接:https://class.coursera.org/textanalytics-001/wiki/view?page=Programming_Assignments_Overview。

二、課程大綱:

三、課程主要內容

3.1 Text representation

可以從以下幾個方面來對文本進行表示:

lexicon analysis 詞匯分析

syntactic analysis 句法分析

semantic analysis 語義分析

pragmatic analysis 實用性分析

文本表示有很多種方法:Multiple ways of representing text are possible

 string, words, syntactic structures, entity-relation graphs, predicates…

這門公開課中,主要討論word 層面的文本表示方法,word relation analysis,topic analysis,sentiment analysis.

3.2 word association mining and analysis

(1)word 之間有兩種基本關系:Paradigmatic vs. Syntagmatic

Paradigmatic (詞形沒有變化)E.g., “cat” and “dog”; “Monday” and “Tuesday”
Syntagmatic:(組合關系) E.g., “cat” and “sit”; “car” and “drive”
這兩種關系的研究在很多NLP任務中都有重要的意義,如:位置標注,語法分析(parsing),實體識別,詞匯拓展。

(2)對這兩種關系的挖掘方法:

Paradigmatic ,文本內容的相似性

Syntagmatic,文本同時出現的概率

(3)分別介紹下兩種關系挖掘的方法

Paradigmatic Relation Discovery,相似詞的發現
word context 表示:bag of word、vector space model (VSM)

 

 

計算向量之間的相似度:(EOWC)

總結:相似詞的計算,步驟如下:

從文檔中表示兩個詞的相關詞袋;計算相關詞袋向量的相似度;選取相似度最高的詞。

在表示詞向量的方法中,BM25+IDF是the state of art.

 

 Syntagmatic Relation Discovery: Entropy,組合關系的發現
熵:衡量變量X的隨機性

條件熵:

 

升序排列取top-k生成候選集

互信息 mutual information :I(X; Y)= H(X) – H(X|Y) = H(Y)-H(Y|X),倒序取top-k生成候選集

KL-divergence :KL散度( Kullback–Leibler divergence),又稱相對熵(relative entropy),是描述兩個概率分布P和Q差異的一種方法。在信息論中,D(P||Q)表示當用概率分布Q來擬合真實分布P時,產生的信息損耗,其中P表示真實分布,Q表示P的擬合分布。

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM