百度開源其NLP主題模型工具包,文本分類等場景可直接使用L——LDA進行主題選擇本質就是降維,然后用於推薦或者分類


2017年7月4日,百度開源了一款主題模型項目,名曰:Familia。

InfoQ記者第一時間聯系到百度Familia項目負責人姜迪並對他進行采訪,在本文中,他將為我們解析Familia項目的技術細節。

什么是Familia

Familia 開源項目包含文檔主題推斷工具、語義匹配計算工具以及基於工業級語料訓練的三種主題模型:Latent Dirichlet Allocation(LDA)、SentenceLDA 和Topical Word Embedding(TWE)。

Familia支持用戶以“拿來即用”的方式進行文本分類、文本聚類、個性化推薦等多種場景的調研和應用。考慮到主題模型訓練成本較高以及開源主題模型資源有限的現狀,我們會陸續開放基於工業級語料訓練的多個垂直領域的主題模型,以及這些模型在工業界的典型應用方式,助力主題模型技術的科研和落地。

據姜迪介紹,Familia主題模型項目是百度研發的貝葉斯網技術的一個重要組成部分,已經支持了百度多個產品,包括搜索、資訊流、貼吧等等。

 

基於主題模型的文檔特征表示可以分為兩類,如圖1所示:一類是經過主題模型降維,得到文檔在主題上的多項分布,LDA、SentenceLDA等模型支持這一類的文檔特征表示;另一類是聯合使用主題向量和文檔主題分布,生成的文檔向量表示,TWE等融合了詞向量的主題模型可以支持這一類的文檔特征表示。

分類

案例: 新聞質量分類

對於新聞APP,其通過各種來源獲得到的新聞,質量通常良莠不齊。在表2中列出了一些低質新聞與優質新聞的標題的示例。

為了提升用戶體驗,通常會構建一個分類器來自動過濾低質量的新聞。可以人工設計一些傳統特征:新聞來源站點、新聞內容長度、圖片數量、新聞熱度等等。除了這些人工特征,也可利用主題模型來計算每篇新聞的主題分布,作為附加特征與人工特征一起組成新特征集合(圖2(a))。

使用人工標注7000篇新聞,新聞質量總共划分為3個檔位,其中0檔表示質量最差,2檔表示質量最優。我們采用Gradient Boost Decision Tree (GBDT),分別利用人工特征和主題擴充后的特征集合在5000篇新聞上進行訓練,並在另外2000篇標注新聞數據上做測試。圖2(b)展示了使用不同特征上的實驗結果,在測試數據上的分類准確度。從這些實驗結果可以看出,主題分布作為特征擴充可以有效提升分類器的效果。

聚類

案例: 新聞聚類

文檔的主題分布可看做是包含語義信息的一個降維過程,這些低維特征可以用來對文檔進行聚類。表3中展示了基於主題分布和K-Means進行聚類的部分結果。從表中可以看出,基於新聞的主題分布,可以很好的完成聚類任務,在簇1中顯示的是與房子裝修相關的新聞,簇2中則是聚集了與股票相關的新聞。

案例: 新聞個性化推薦

長文本-長文本的語義匹配可用於個性化推薦的任務中。在互聯網應用中,當積累了用戶大量的行為信息后,這些行為信息對應的文本內容可以組合成一篇抽象的“文檔”,對該“文檔”進行主題映射后獲得的主題分布可以作為用戶畫像。例如,在新聞個性化推薦中,可以將用戶近期閱讀的新聞(或新聞標題)合並成一篇長“文檔”,並將該“文檔” 的主題分布作為表達用戶閱讀興趣的用戶畫像。如圖5所示,通過計算每篇實時新聞的主題分布與用戶畫像之間的Hellinger Distance,可作為向用戶推送新聞的選擇依據,達到新聞個性化推薦的效果。

摘自:http://www.infoq.com/cn/news/2017/07/Baidu-open-NLP-Toolkit


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM