機器學習:基於關聯規則的多標簽分類器


•什么是多標簽分類

      之前我們提到的分類問題主要是單標簽分類問題,即每個實例只屬於一個類別,又叫二分類問題(即使是多標簽分類也是采用了二分類方法);多標簽就是每個實例,可能同時屬於多個類別,較復雜些。

 

•什么是多標簽分類

      之前我們提到的分類問題主要是單標簽分類問題,即每個實例只屬於一個類別,又叫二分類問題(即使是多標簽分類也是采用了二分類方法);多標簽就是每個實例,可能同時屬於多個類別,較復雜些。

 

•幾個重要的定義。

  支持度:事務D中同時包含X和Y的百分比,概率。

  置信度:D中事務已經包含X的情況下,包含Y的百分比,條件概率。

  滿足最小支持度閾值和最小置信度閾值,則認為這個關聯規則是有趣的。

 

例子,表1是顧客購買記錄的數據庫D,包含6個事務。項集I={網球拍,網球,運動鞋,羽毛球}。

TID

網球拍

網 球

運動鞋

羽毛球

1

1

1

1

0

2

1

1

0

0

3

1

0

0

0

4

1

0

1

0

5

0

1

1

1

6

1

1

0

0

考慮關聯規則(頻繁二項集):網球拍與網球,事務1,2,3,4,6包含網球拍,事務1,2,6同時包含網球拍和網球,X^Y=3, D=6,支持度(X^Y)/D=0.5;X=5, 置信度(X^Y)/X=0.6。若給定最小支持度α = 0.5,最小置信度β = 0.6,認為購買網球拍和購買網球之間存在關聯。

 

•1挖掘大頻率項集

       主要利用了向下封閉屬性:如果一個項集是頻繁項目集,那么它的非空子集必定是頻繁項目集。

    

        算法: 

    (1)先生成1-頻繁項目集,再利用1-頻繁項目集生成2-頻繁項目集。

    (2)然后根據2-頻繁項目集生成3-頻繁項目集。

    (3)依次類推,直至生成所有的頻繁項目集

 

•2生成強關聯規則
•從頻繁項目集合中生成滿足最低置信度的關聯規則;

     (1)先生成所有的1-后件(后件只有一項)強關聯規則;

     (2)然后再生成2-后件強關聯規則;

     (3)依次類推,直至生成所有的強關聯規則。

 

•3構造分類器

  1對生成的關聯規則集合進行排序,按照置信度,支持度,集合基數,標簽頻度依次排序。

  2排序后的第一條關聯規則開始,若這條規則至少覆蓋一個訓練實例,將這條規則加入分類器,並且同時刪除所有屬性屬於規則體的實例。

  3迭代步驟2,直到所有的實例被刪除或說的規則都被測試過停止。

  (步驟2,3中,約簡了大部分規則集)

  4若最后,存在沒有類別的訓練實例,使用默認規則:將類別出現頻度最大的標簽給這個實例。

 

•4預測類別

    1有序規則集中第一條規則開始,若規則體完全包含於測試實例的屬性集,則該實例具有這條規則的標簽;

  2循環步驟1,直到沒有完全包含測試實例屬性集的規則,停止。

    3若沒有規則集的規則體完全包含於測試實例的屬性集,我們取第一條有交集的規則,將其標簽賦給測試實例。

  4若不存在與測試實例屬性集有交集的規則體,則使用默認規則:將最大頻度的標簽賦給測試實例。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM