labeled LDA,Hierarchically Supervised LDA


  原創內容,轉載注明出處

 

 最近看了labeled LDA 和Hierarchically LDA,看之前一頭霧水,想要查些介紹,可是發現這兩個模型在其他博文里都只是簡單的介紹,沒有找到較為詳細的介紹。所以想寫這篇博文,希望對初學者有所幫助。如果有理解不到位的也希望得到大家的指正。

  這篇文章是建立在讀者已經對LDA有了很好的理解之上的,如果還沒有看過基礎版LDA請自行查閱第一篇博文和參考文獻。

  那么如果理解了基礎版LDA,這兩個改進版就不是什么大問題了。

  labeled LDA發表於2009年ACL,對於文檔-主題分布增加了一個監督項。比如,已經知道一個文檔的標簽是(0,1,1,0),那么它的主題分布和標簽一一對應,所以如果標簽是四維,那么主題也有四個,和四個標簽對應。那么在Gibbs Sampling的時候就單詞只在這篇文章對應的主題中采樣,從而得到最后的主題分布。例如以(0,1,1,0)為標簽的文檔對應的主題分布可能是(0,0.1234,0.7829,0)。

  如上圖,為了保證在標簽主題中采樣,α和之前的LDA不同:,其中L為一個矩陣:例如上例,四個標簽中第二個第三個屬於當前文檔,那么L為那么顯然此時

 

  有了這些其余的就和LDA完全相同了,可以開始采樣了~

  

  得到當前的文檔主題分布和主題詞匯分布后,對於新的文檔進行訓練是沒有標簽限制的,和LDA完全相同。

  Hierarchically LDA發表於2011年的NIPS。也是通過標簽集合來限定主題的采樣。看了幾天,終於看懂了這個模型是什么鬼。。。主要是針對有層次結構的數據來說的,子節點是父節點的一個分類。模型是兩個過程,上面是傳統LDA,得到文檔d的主題分布z,然后根據主題分布和已知的一些標簽y還有參數η來進行寬度優先搜索,確定輔助變量a,並據此判斷一個label是否屬於這個文檔。(標簽的膨脹)

   結構如圖所示,β是全局的主題分布,θ是每篇文章的主題分布,φ是主題的詞匯分布。η服從正態分布。y代表標簽是否屬於當前類別,+1是屬於,-1是不屬於。在樹形層次結構中,只有父節點有一個標簽時,子節點才能有這個標簽,如果子節點有這個標簽,那么父節點一定有這個標簽。α‘是狄利克雷分布參數,β是狄利克雷分布,θ服從Dir(αβ),φ和LDA中的狄利克雷分布相同。a是一個輔助參數。根據已知的label和(是文章中某一主題的單詞占所有主題的比例)來生成特定的條件標簽的過程如下:

 

采樣的公式為:

其他參數更新為:

 

 

  

 

 

 

  

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM