許多商業企業運營中的大量數據,通常稱為購物籃事務(market basket transaction)。表中每一行對應一個事務,包含一個唯一標識TID。

利用關聯分析的方法可以發現聯系如關聯規則或頻繁項集。
關聯分析需要處理的關鍵問題:
- 從大型事務數據集中發現模式可能在計算上要付出很高的代價。
- 所發現的某些模式可能是假的,因為它們可能是偶然發生的。
二元表示
沒按過對應一個事務,每列對應一個項,項用二元變量表示
項在事務中出現比不出現更重要,因此項是非對稱的的二元變量。
項集(Itemset):包含0個或多個項的集合,如果包含k個項,則稱為k-項集。
事務的寬度:事務中出現的項的個數
支持度數(Support count):包含特定項集的事務個數,項集X的支持度數為\(\sigma(X) = |{t_i | X \subseteq t_i, t_i \in T}|\),其中T為事務集合
關聯規則(association rule):如\(X \to Y\)的蘊含表達式,其中X和Y是不相交的項集,\(X \cap Y = \varnothing\)。關聯規則的強度可以用支持度(support)和置信度(confidence)度量。支持度確定規則可以用於給定數據集的頻繁程度,而置信度確定Y在包含X的事務中出現的頻繁程度。支持度s和置信度c:
使用支持度和置信度原因:
- 支持度很低的規則只能偶然出現,支持度通常用來刪除那些無意義的規則。還具有一種期望的性質,可以用於關聯規則的發現。
- 置信度度量通過規則進行推理具有可靠性。對於給定的規則,置信度越高,Y在包含X的事務中出現的可能性越大。置信度也可以估計Y在給定X的條件下概率。
在解析關聯分析的結果時,應當小心,規則做出去的推論並不必然蘊含因果關系。它只表示規則前件和后件中的項明顯地同時出現。另一方面,因果關系需要關於數據中原因和結果屬性的知識,並且通常涉及長期出現的聯系。
關聯規則發現:給定事務集合T,關聯規則發現是指找到支持度大於等於閾值minsup並且置信度大於等於minconf的所有規則。
挖掘關聯規則的一種原始方法是計算每個可能規則的支持度和置信度,但是代價很高。因此提高性能的方法是拆分支持度和置信度。因為規則的支持度主要依賴於\(X \cup Y\)的支持度,因此大多數關聯規則挖掘算法通常采用的策略是分解為兩步:
- 頻繁項集產生,其目標是發現滿足具有最小支持度閾值的所有項集,稱為頻繁項集(frequent itemset)。
- 規則產生,其目標是從上一步得到的頻繁項集中提取高置信度的規則,稱為強規則(strong rule)。
通常頻繁項集的產生所需的計算遠大於規則產生的計算花銷。
關聯分析:
數據挖掘之關聯分析一(基本概念)
數據挖掘之關聯分析二(頻繁項集的產生)
數據挖掘之關聯分析三(規則的產生)
數據挖掘之關聯分析四(連續屬性處理)
數據挖掘之關聯分析五(序列模式)
數據挖掘之關聯分析六(子圖模式)
數據挖掘之關聯分析七(非頻繁模式)
