【煉數成金 RapidMiner 三 】關聯分析、關聯規則


關聯分析


1)    關聯模型的部分局限有哪些?
       在關聯模型中一般需要尋找頻繁項集,這就有可能產生大量的候選集,需要重復掃描數據庫並計算候選集中每個候選項集的支持度,無法對稀有的信息進行分析,開銷大。
    
2)    什么是關聯系數? 如何解讀?  

       相關系數是用以反映變量之間相關關系密切程度的統計指標。相關系數是按積差方法計算,同樣以兩變量與各自平均值的離差為基礎,通過兩個離差相乘來反映兩變量之間相關程度;着重研究線性的單相關系數。

      相關系數ρ取值在-1到1之間,ρ = 0時,稱X,Y不相關|ρ| = 1時,稱X,Y完全相關,此時,X,Y之間具有線性函數關系; |ρ| < 1時,X的變動引起Y的部分變動,ρ的絕對值越大,X的變動引起Y的變動就越大, | ρ| > 0.8時稱為高度相關,當,即 | ρ| < 0.3時,稱為低度相關,其他為中度相關。

      但是相關系數有一個明顯的缺點,即它接近於1的程度與數據組數n相關,這容易給人一種假象。因為,當n較小時,相關系數的波動較大,對有些樣本相關系數的絕對值易接近於1;當n較大時,相關系數的絕對值容易偏小。特別是當n=2時,相關系數的絕對值總為1。因此在樣本容量n較小時,我們僅憑相關系數較大就判定變量x與y之間有密切的線性關系是不妥當的。

3)    正關聯和負關聯之間的區別是什么? 如果兩個屬性的值以基本相同的速率下降,是否為負關聯? 為什么?
       正關聯和負關聯基本相似於正比與反比,只是關系不是線性的,是大致趨勢相似。正相關就是兩個變量一個隨另一個增加而增加,負相關是兩個變量一個隨另一個增加而減少。如果兩個屬性的值以基本相同的速率下降,不是負關聯,他們變化趨勢相同,屬於正關聯。

4)    如何衡量關聯強度? 關聯強度介於什么范圍之間?
       關聯強度是兩個研究對象之間的相似程度,一般用它們共同被引的次數來表征。關聯強度越大,相似度越高,"距離"也越近。常用的相似度測算方法--Person系數適用呈現正態分布的數據。描述兩個變量之間線性相關強度的參數r取值范圍為[-1,1]。


5)    有人建議熱燃油消費設備的數量是一個可能相關並可添加到本章示例數據集中的屬性。 您還可以想到其他屬性嗎? 它們為什么可能相關? 您認為您建議的屬性可能與數據集中的哪些其他屬性之間存在關聯? 如果知道它們之間存在關聯,會有哪些幫助?

       除了示例中的屬性,認為家庭成員平均室內的時間也與熱燃油需求有一定的關系。家庭成員平均室內時間會直接影響到保持室內溫度的時間和對熱燃油的消耗,如果家庭成員在室內的平均時間越長則熱燃油的需求越大,這樣就可以更加精確地定位Sarah所在公司的投放目標。


 

關聯規則


1)    什么是關聯規則? 它們有哪些用處?
    關聯規則是描述在一個交易中物品之間同時出現的規律的知識模式,更確切的說,關聯規則是通過量化的數字描述物品X的出現對物品Y的出現有多大的影響。可以用在購物籃分析、交叉銷售、產品目錄設計、 loss-leader analysis、聚集、分類等各個方面。
 
2)    在關聯規則中計算的兩個主要指標是什么,如何計算?
    (1)規則X->Y在交易數據集D中的支持度是對關聯規則重要性的衡量,反映關聯是否是普遍存在的規律,說明這條規則在所有交易中有多大的代表性。即在所有交易中X與Y同時出現的頻率記為:support(X->Y)。 計算方法:交易數據集中同時包含X和Y的交易數與所有交易數之比:support(X->Y) = P(X∪Y) = |{T: X ∪Y∈T,T∈D}|/|D|×100%(其中|D|是交易數據集D中的所有交易數)

    (2)規則X、Y在交易數據集D中的置信度是對關聯規則准確度的衡量。度量關聯規則的強度。即在所有出現了X的活動中出現Y的頻率,即規則X、Y的必然性有多大。記為confidence(X->Y)。

    計算方法:包含X和Y的交易數與包含X的交易數之比:confidence(X->Y) = P(Y∣X) = |{T: X∪Y∈T,T∈D}|/|{T:X∈T,T∈D}|×100%

    同時滿足最小置信度閾值和最小支持度閾值的關聯規則為強關聯規則。


3)    數據集的屬性必須是什么數據類型,才能在 RapidMiner 中使用頻率模式操作符?
        必須是二值類型的數據。    

4)    如何解讀規則結果? 在本章的示例中,最強的規則是什么? 我們是如何知道的?

       

        可以從結果集中讀取可能選在關聯的一對元素之間的支持度和置信度,在本章中最高關聯強度是Religious->Rule,支持度為0.239,置信度為0.796。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM