之前我們提到的分類問題主要是單標簽分類問題,即每個實例只屬於一個類別,又叫二分類問題(即使是多標簽分類也是采用了二分類方法);多標簽就是每個實例,可能同時屬於多個類別,較復雜些。
之前我們提到的分類問題主要是單標簽分類問題,即每個實例只屬於一個類別,又叫二分類問題(即使是多標簽分類也是采用了二分類方法);多標簽就是每個實例,可能同時屬於多個類別,較復雜些。
支持度:事務D中同時包含X和Y的百分比,概率。
置信度:D中事務已經包含X的情況下,包含Y的百分比,條件概率。
滿足最小支持度閾值和最小置信度閾值,則認為這個關聯規則是有趣的。
例子,表1是顧客購買記錄的數據庫D,包含6個事務。項集I={網球拍,網球,運動鞋,羽毛球}。
TID |
網球拍 |
網 球 |
運動鞋 |
羽毛球 |
1 |
1 |
1 |
1 |
0 |
2 |
1 |
1 |
0 |
0 |
3 |
1 |
0 |
0 |
0 |
4 |
1 |
0 |
1 |
0 |
5 |
0 |
1 |
1 |
1 |
6 |
1 |
1 |
0 |
0 |
考慮關聯規則(頻繁二項集):網球拍與網球,事務1,2,3,4,6包含網球拍,事務1,2,6同時包含網球拍和網球,X^Y=3, D=6,支持度(X^Y)/D=0.5;X=5, 置信度(X^Y)/X=0.6。若給定最小支持度α = 0.5,最小置信度β = 0.6,認為購買網球拍和購買網球之間存在關聯。
主要利用了向下封閉屬性:如果一個項集是頻繁項目集,那么它的非空子集必定是頻繁項目集。
算法:
(1)先生成1-頻繁項目集,再利用1-頻繁項目集生成2-頻繁項目集。
(2)然后根據2-頻繁項目集生成3-頻繁項目集。
(3)依次類推,直至生成所有的頻繁項目集
(1)先生成所有的1-后件(后件只有一項)強關聯規則;
(2)然后再生成2-后件強關聯規則;
(3)依次類推,直至生成所有的強關聯規則。
1對生成的關聯規則集合進行排序,按照置信度,支持度,集合基數,標簽頻度依次排序。
2排序后的第一條關聯規則開始,若這條規則至少覆蓋一個訓練實例,將這條規則加入分類器,並且同時刪除所有屬性屬於規則體的實例。
3迭代步驟2,直到所有的實例被刪除或說的規則都被測試過停止。
(步驟2,3中,約簡了大部分規則集)
4若最后,存在沒有類別的訓練實例,使用默認規則:將類別出現頻度最大的標簽給這個實例。
1有序規則集中第一條規則開始,若規則體完全包含於測試實例的屬性集,則該實例具有這條規則的標簽;
2循環步驟1,直到沒有完全包含測試實例屬性集的規則,停止。
3若沒有規則集的規則體完全包含於測試實例的屬性集,我們取第一條有交集的規則,將其標簽賦給測試實例。
4若不存在與測試實例屬性集有交集的規則體,則使用默認規則:將最大頻度的標簽賦給測試實例。