頻繁項集:
最基本的模式是項集,它是指若干個項的集合。頻繁模式是指數據集中頻繁出現的項集、序列或子結構。頻繁項集是指支持度大於等於最小支持度(min_sup)的集合。其中支持度是指某個集合在所有事務中出現的頻率。頻繁項集的經典應用是購物籃模型。常用的頻繁項集的評估標准有支持度,置信度和提升度(關聯規則)三個
求頻繁項集:
對於如表5.5所示的事務集合,設最小支持度計數為3,采用Apriori算法求出所有的頻繁項集。
關聯規則:
關聯規則是形如X→Y的蘊涵式,其中, X和Y分別稱為關聯規則的先導(antecedent或left-hand-side, LHS)和后繼(consequent或right-hand-side, RHS) 。其中,關聯規則XY,存在支持度和信任度。
支持度:幾個關聯的數據在數據集中出現的次數占總數據集的比重
置信度:一個數據出現后,另一個數據出現的概率,或者說數據的條件概率。
提升度:表示含有Y的條件下,同時含有X的概率,與X總體發生的概率之比
自連接: