Apriori算法有支持度和置信度兩個概念,都是在執行算法之前自己設定的,在每一次迭代過程后,大於支持度的項集被保留為頻繁項集,最后生成的規則由最終的頻繁項集組成。
一、支持度
支持度就是所有我們分析的交易中,某兩種(若干種)商品同時(這里的同時,一般意味着同單或者一次獨立的交易)被購買的概率(比率)。我們選擇支持度的最終目的就是找出同時被購買的兩個商品,可以提高我們的推薦轉換率,從而增加收入。那么可以選出支持度最高的前n對(以下分析僅考慮兩種商品,簡稱“對”)商品,我通常是選擇總對數的萬分之一或者是前20個。這樣的數量不會很多,可以比較快的進行下一步分析,而且做推薦,要記住一點,“不能急功近利”。
根據萬分之一或者前20,可以得到一個支持度,其實這個時候的支持度閥值,對本次分析已經意義不大了,主要是用於后續推薦系統的智能學習提供一個參考值。
二、置信度
置信度就是根據某一個條件,得到一個結論的可信程度、可靠程度。例子中,“購買了尿布”這個條件,可以推出“同時也會購買啤酒”這個結論的可靠程度很高,百度百科關聯規則_百度百科 中分析的數據表明沃爾瑪尿布到啤酒的置信度高達70%。
在分析支持度得到的前20對商品中,分別計算雙向置信度(購買a同時購買b和購買b同時購買a的置信度都要算),然后篩選中前n個置信度較高的置信度,分析其對應的結論。通過有經驗的業務人員,從中共同選出最合理的一對商品,來進行單向的購物車推薦。這時得到的一個置信度,可以作為今后機器學習的參考值。
個人覺得機器學習要做到全自動,幾乎不可能,特別是對於我這種初學者,現在還接觸不到。因此個人比較偏向半自動和人工分析輔助來完成一些功能。
支持度就是所有我們分析的交易中,某兩種(若干種)商品同時(這里的同時,一般意味着同單或者一次獨立的交易)被購買的概率(比率)。我們選擇支持度的最終目的就是找出同時被購買的兩個商品,可以提高我們的推薦轉換率,從而增加收入。那么可以選出支持度最高的前n對(以下分析僅考慮兩種商品,簡稱“對”)商品,我通常是選擇總對數的萬分之一或者是前20個。這樣的數量不會很多,可以比較快的進行下一步分析,而且做推薦,要記住一點,“不能急功近利”。
根據萬分之一或者前20,可以得到一個支持度,其實這個時候的支持度閥值,對本次分析已經意義不大了,主要是用於后續推薦系統的智能學習提供一個參考值。
二、置信度
置信度就是根據某一個條件,得到一個結論的可信程度、可靠程度。例子中,“購買了尿布”這個條件,可以推出“同時也會購買啤酒”這個結論的可靠程度很高,百度百科關聯規則_百度百科 中分析的數據表明沃爾瑪尿布到啤酒的置信度高達70%。
在分析支持度得到的前20對商品中,分別計算雙向置信度(購買a同時購買b和購買b同時購買a的置信度都要算),然后篩選中前n個置信度較高的置信度,分析其對應的結論。通過有經驗的業務人員,從中共同選出最合理的一對商品,來進行單向的購物車推薦。這時得到的一個置信度,可以作為今后機器學習的參考值。
個人覺得機器學習要做到全自動,幾乎不可能,特別是對於我這種初學者,現在還接觸不到。因此個人比較偏向半自動和人工分析輔助來完成一些功能。
作者:知乎吳健
鏈接:http://www.zhihu.com/question/22574269/answer/22227427
鏈接:http://www.zhihu.com/question/22574269/answer/22227427
離線進行關聯規則的運算,在線結合實時訪問頁面,根據離線計算的關聯規則進行實時推薦。