positive-unlabeled (PU) learning


PULearning的應用場景是,我們可以清晰地確定正樣本,但是不能確定負樣本,因為它有可能是正樣本,只是我們還沒有證明。

這時我們可以把這部分不確定的樣本稱為無標簽樣本U,加上正樣本P來建立模型。

問題可以轉化為一個有約束條件的最優化問題:

在保證正例中錯誤率低於1-r的條件下,最小化無標簽樣本中U的正例數目。

建立PU分類器有兩種方法:

兩步方法two- step approach

直接方法direct approach

 

two-step approach:

第一階段:從未標記實例中選擇可靠的負例集RN,做法是:

在P中隨機選取一部分正例S加入U中,這時兩個數據集是P-S,我們叫做ps,和U+S,我們叫做us,用ps和us訓練一個模型g

然后用g對無標簽樣本U做分類,得到每個樣本的概率,設定一個閾值a,如果樣本概率低於a那么我們認為是一個可靠負例

步驟:

第二階段:利用正例P和可靠負例RN,訓練一個傳統的機器學習分類模型,用來預測新樣本。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM