【數據倉庫與數據挖掘 - 關聯分析算法】頻繁項集?關聯規則?支持度?置信度?自連接?


頻繁項集:

最基本的模式是項集,它是指若干個項的集合。頻繁模式是指數據集中頻繁出現的項集、序列或子結構。頻繁項集是指支持度大於等於最小支持度(min_sup)的集合。其中支持度是指某個集合在所有事務中出現的頻率。頻繁項集的經典應用是購物籃模型。常用的頻繁項集的評估標准有支持度,置信度和提升度(關聯規則)三個

  求頻繁項集:

  對於如表5.5所示的事務集合,設最小支持度計數為3,采用Apriori算法求出所有的頻繁項集。

關聯規則:

關聯規則是形如X→Y的蘊涵式,其中, X和Y分別稱為關聯規則的先導(antecedent或left-hand-side, LHS)和后繼(consequent或right-hand-side, RHS) 。其中,關聯規則XY,存在支持度和信任度。

  支持度:幾個關聯的數據在數據集中出現的次數占總數據集的比重

  

  置信度:一個數據出現后,另一個數據出現的概率,或者說數據的條件概率。

  

  提升度:表示含有Y的條件下,同時含有X的概率,與X總體發生的概率之比

  

 

 自連接:

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM