關聯規則中最小支持度和最小置信度

本文轉載自查看原文 2016-04-17 20:42 12675 DataMining

一、支持度
　　支持度就是所有我們分析的交易中，某兩種（若干種）商品同時（這里的同時，一般意味着同單或者一次獨立的交易）被購買的概率（比率）。我們選擇支持度的最終目的就是找出同時被購買的兩個商品，可以提高我們的推薦轉換率，從而增加收入。那么可以選出支持度最高的前n對（以下分析僅考慮兩種商品，簡稱“對”）商品，我通常是選擇總對數的萬分之一或者是前20個。這樣的數量不會很多，可以比較快的進行下一步分析，而且做推薦，要記住一點，“不能急功近利”。

　　根據萬分之一或者前20，可以得到一個支持度，其實這個時候的支持度閥值，對本次分析已經意義不大了，主要是用於后續推薦系統的智能學習提供一個參考值。

二、置信度
　　置信度就是根據某一個條件，得到一個結論的可信程度、可靠程度。例子中，“購買了尿布”這個條件，可以推出“同時也會購買啤酒”這個結論的可靠程度很高，百度百科關聯規則_百度百科中分析的數據表明沃爾瑪尿布到啤酒的置信度高達70%。

　　在分析支持度得到的前20對商品中，分別計算雙向置信度（購買a同時購買b和購買b同時購買a的置信度都要算），然后篩選中前n個置信度較高的置信度，分析其對應的結論。通過有經驗的業務人員，從中共同選出最合理的一對商品，來進行單向的購物車推薦。這時得到的一個置信度，可以作為今后機器學習的參考值。

　　個人覺得機器學習要做到全自動，幾乎不可能，特別是對於我這種初學者，現在還接觸不到。因此個人比較偏向半自動和人工分析輔助來完成一些功能。

　　作者：知乎吳健
　　鏈接：http://www.zhihu.com/question/22574269/answer/22227427

　　離線進行關聯規則的運算，在線結合實時訪問頁面，根據離線計算的關聯規則進行實時推薦。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 【數據倉庫與數據挖掘 - 關聯分析算法】頻繁項集？關聯規則？支持度？置信度？自連接？關聯分析中的支持度、置信度和提升度支持度、置信度、提升度的區別和計算關聯規則關聯規則 Weka關聯規則分析關聯規則的常用算法關聯規則（Apriori算法） R語言關聯規則關聯規則-Apriori算法