PULearning的應用場景是,我們可以清晰地確定正樣本,但是不能確定負樣本,因為它有可能是正樣本,只是我們還沒有證明。
這時我們可以把這部分不確定的樣本稱為無標簽樣本U,加上正樣本P來建立模型。
問題可以轉化為一個有約束條件的最優化問題:
在保證正例中錯誤率低於1-r的條件下,最小化無標簽樣本中U的正例數目。
建立PU分類器有兩種方法:
兩步方法two- step approach
直接方法direct approach
two-step approach:
第一階段:從未標記實例中選擇可靠的負例集RN,做法是:
在P中隨機選取一部分正例S加入U中,這時兩個數據集是P-S,我們叫做ps,和U+S,我們叫做us,用ps和us訓練一個模型g
然后用g對無標簽樣本U做分類,得到每個樣本的概率,設定一個閾值a,如果樣本概率低於a那么我們認為是一個可靠負例
步驟:
第二階段:利用正例P和可靠負例RN,訓練一個傳統的機器學習分類模型,用來預測新樣本。