1 引言
主題模型是文本挖掘的重要工具,近年來在學術界和工業屆都獲得了非常多的關注。學術界的工作主要集中在建模層面,即提出各種各樣的主題模型來適應不同的場景,因此缺乏指導主題模型在工業場景落地的資源和文獻。
本文主要是以《Familia:開源的中文主題模型應用工具包》為參考資料,入門NLP領域。該文結合開源工具Familia(百度開源),總結主題模型在工業屆的一些典型應用案例,從而方便用戶找到適合自己任務的模型以及該模型的應用方式。
2 主題模型概念
以LDA為代表的主題模型,訓練的結果一般是不同主題下每個語義相關詞的重要程度;也就是說基於大量的網頁預料,模型可以訓練得到多種主題(隱變量)下各主題的關鍵詞。基於訓練的結果就可以評估一個文檔的主題分布。
主題模型在工業屆的應用范式可以分為兩類:語義表示和語義匹配。
3 語義表達
主題模型的產生的主題分布可以看做文檔的語義表示,該表示能夠用於文檔分類、聚類、內容豐富度分析、CTR預估等多種任務。
基於主題模型的文檔特征表示可是分為兩類:一類是經過主題模型降維,得到文檔在主題上的多項分布;另一類是聯合使用主題向量和文檔主題分布,生成文檔的向量表示。
3.1 新聞質量分類
為了提升用戶體驗,通常需要構建一個分類器自動過濾低質量的新聞。首先我們設計一些傳統特征:新聞來源站、新聞內容長度、圖片數量、新聞熱度等等。除了這些人工特征,也可利用主題模型來計算每篇新聞的主題分布,作為附加特征和人工特征一起組成新特征集合,然后對7000篇文章進行人工標注,新聞質量划分為0/1/2共3個檔位,其中0檔表示質量最差,2檔表示質量最優。基於訓練集,我們采用GBDT在5000篇新聞上進行訓練,並在另外2000篇新聞數據上做測試。從實驗結果來看,主題分布作為特征擴充可以有效提升分類器的效果。
3.2 新聞聚類
文檔的主題分布可看做是包含語義信息的一個降維過程,低維的主題分布特征可以用來對文檔進行聚類。基於主題分布特征進行K-means聚類,可以發現新聞的主題分布可以很好的完成聚類任務。
3.3 網頁內容豐富度
豐富度一定程度上反映了網頁的質量。通過計算網頁的主題分布,可以進一步計算該分布的信息熵,作為衡量網頁內容豐富程度的指標,信息熵越大,表示網頁內容越豐富。那么網頁內容豐富度有什么重要作用呢?它可以作為一維特征引入更為復雜的網頁排序函數中。
4 語義匹配
工業屆中很多應用都有在語義上衡量文本相似度的需求,這類需求可以統稱為語義匹配。根據文本長度不同,可以細分為三類:短文本-短文本語義匹配,短文本-長文本語義匹配和長文本-長文本語義匹配。需要注意的是基於主題模型的語義匹配通常作為經典文本匹配技術的補充,而不是取代。
4.1 短文本-短文本語義匹配
工業屆的很多場景都會應用到短文本-短文本的語義匹配,例如:在網頁搜索中,我們需要度量用戶查詢(query)和網頁標題的語義相關性,在查詢(query)推薦中,我們需要度量query和其他query的相似度。由於主題模型在短文本上的效果不理想,在短文本-短文本匹配任務中詞向量的應用比主題模型要更加普遍。
4.2 短文本-長文本語義匹配
短文本-長文本語義匹配在工業屆的應用更加普遍。例如:在搜索引擎中,我們需要計算一個用戶查詢(query)和一個網頁正文(content)的語義相關度。由於query通常較短,而網頁content較長,因此query與content的匹配與上文提及的短文本-短文本不同,通常使用短文本-長文本語義匹配,已得到更好的匹配效果。
在計算相似度的時候,我們規避對短文本直接進行主題映射,而是根據長文本的主題分布,計算該分布生成短文本的概率,作為它們之間的相似度。
- 案例1:用戶查詢-廣告頁面相似度
方法:首先通主題模型學習得到廣告的主題分布,再計算用戶查詢和廣告頁面的語義相似度,該相似度作為一維特征,應用於更復雜的排序模型中。
- 案例2:文檔關鍵詞抽取
在分析文檔時,我們往往會抽取一些文檔的關鍵詞作為標簽,這些標簽在用戶畫像和推薦任務中扮演重要角色。從文當中抽取關鍵詞最常用的方法是利用詞的TF和IDF信息,此外還可以利用主題模型,估計一個文檔產生單詞的概率作為該單詞的重要度指標。
4.3 長文本-長文本語義匹配
通過使用主題模型,我們可以得到兩個長文本的主題分布,再通過計算兩個二項分布的距離來衡量它們之間的相似度。
- 案例1:新聞個性化推薦
方法:互聯網應用中,當我們積累了大量用戶行為之后,這些行為信息對應的文本內容可以作為一個抽象文檔,對該文檔進行主題映射獲得的主題分布可以作為用戶畫像,例如:在新聞個性化推薦中,我們將用戶近期閱讀的新聞(或者新聞標題)合並成一篇長文檔,並將該文檔的主題分布作為表達用戶閱讀興趣的用戶畫像。通過計算每篇實時新聞的主題分布與用戶畫像的距離,就可以作為向用戶推送新聞的選擇依據。
- 案例2:小說個性化推薦
方法:基於特征的矩陣分解可以增加一些全局特征、用戶特征以及物品特征,使得模型的在推薦上可以取得更好的效果。另外我們還可以構建用戶畫像和每個小說主題分布的距離,該距離作為全局特征,加入到SVDFeature中訓練。
- 垂類新聞CTR預估
方法:利用新聞-用戶相似度(語義匹配),新聞主題特征(主題分布)和其他常規統計特征(時間、新聞源、點擊率等),訓練模型,從而預估CTR。