LSA算法簡單理解


文本挖掘的兩個方面應用:
(1)分類:
a.將詞匯表中的字詞按意思歸類(比如將各種體育運動的名稱都歸成一類)
b.將文本按主題歸類(比如將所有介紹足球的新聞歸到體育類)
(2)檢索:用戶提出提問式(通常由若干個反映文本主題的詞匯組成),然后系統在數據庫中進行提問式和預存的文本關鍵詞的自動匹配工作,兩者相符的文本被檢出。

文本分類中出現的問題:
(1)一詞多義
比如bank 這個單詞如果和mortgage, loans, rates 這些單詞同時出現時,bank 很可能表示金融機構的意思。可是如果bank 這個單詞和lures, casting, fish一起出現,那么很可能表示河岸的意思。
(2)一義多詞
比如用戶搜索“automobile”,即汽車,傳統向量空間模型僅僅會返回包含“automobile”單詞的頁面,而實際上包含“car”單詞的頁面也可能是用戶所需要的。

LSA原理:
通過對大量的文本集進行統計分析,從中提取出詞語的上下文使用含義。技術上通過SVD分解等處理,消除了同義詞、多義詞的影響,提高了后續處理的精度。
流程:
(1)分析文檔集合,建立詞匯-文本矩陣。
(2)對詞匯-文本矩陣進行奇異值分解。
(3)對SVD分解后的矩陣進行降維
(4)使用降維后的矩陣構建潛在語義空間

LSA詳細流程:
LSA初始矩陣的生成:
(1)生成詞匯庫(以英文文本為例)
a從文本中過濾非英文字母字符;
b過濾禁用詞;
c相同詞根單詞歸一;
d詞匯統計和排序:
e生成詞匯庫
(2)生成詞匯-文本矩陣
由各索引詞在每篇文本中的出現頻率生成詞匯-文本矩陣 X 該矩陣中(第 i行第 j 列的元素數值aij 表示第 i個索引詞在第 j 篇文本中出現的頻率或者TF-IDF加權詞頻)
初始矩陣中每一行對應一個詞,每列對應一篇文章,M個詞和N篇文章可以表示為如下MX N的矩陣

(3)奇異值分解

如下圖將一個大矩陣分成3個小矩陣相乘 的形式。


 

(1)第一個小矩陣X是對詞進行分類的一個結果,它的每一行表示一個詞,每一列表示一個語義相近的詞類,這一行中每個非零元素表示每個詞在每個語義類中的重要性(或者說相關性)

如X =  [0.7 0.15;0.22 0.49;0.3 0.03]

則第一個詞和第一個語義類比較相關,第二個詞正好相反,第三個詞與兩個語義都不相關。

(2)第二個小矩陣B表示詞的類和文章的類之間的相關性

如B = [0.7 0.21;0.18 0.63]

則第一個詞的語義類和第一個主題相關,和第二個主題沒有太多關系,第二個詞的語義類則相反

(3)矩陣Y是對文本進行分類的一個結果,它的每一行表示一個主題,每一列表示一個文本,這一列每個元素表示這篇文本在不同主題中的相關性

如Y =[0.7 0.15;0.22 0;0.92 0.08]

則第一篇文章屬於第一個主題,第二篇文章和第二個主題非常相關,第三篇文章與兩個主題都不相關

實例:
對一下九個標題進行分類以及對提問式human computer interaction進行檢索
標題(人機互動和圖形)
c1: Human machine interface for Lab ABC computer applications
c2: A survey of user opinion of computer system response time
c3: The EPS user interface management system
c4: System and human system engineering testing of EPS
c5: Relation of user-perceived response time to error measurement
m1: The generation of random, binary, unordered trees
m2: The intersection graph of paths in trees
m3: Graph minors IV: Widths of trees and well-quasi-ordering
m4: Graph minors: A survey
(1)構建詞匯-文本矩陣
(2)使用MATLAB進行奇異值分解然后對其進行降維:


(3)由 T和D得各個詞匯和文本的二維坐標向量為:


根據以上結果可以分別實現對於單詞和文本意思的分類

(4)檢索:
提問式 human computer interaction
矩陣表示:Xq[1 0 1 0 0 0 0 0 0 0 0 0]
降維后語義空間向量Dq=Xq*T*S^-1=(0.138 -0.028)
計算向量間夾角后發現返回文章c1(h1-h9分別是提問式和原文本的向量間夾角,夾角為90度附近說明關聯性很差)


參考文獻:
a comparative study of TF-IDF,LSI and multi-words for text classfication-- Wen Zhang , Taketoshi Yoshida , Xijin Tang 
數學之美(p137-142)--吳軍
LSI潛在語義信息檢索模型--何偉
潛在語義分析在文本信息檢索中的應用研究--盧健
潛在語義分析理論研究及其應用--陳潔華

版權聲明:本文為博主原創文章,未經博主允許不得轉載。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM