weka是一個很好的數據挖掘實驗的工具,可以進行標准的數據挖掘的各種實驗,首先來說一下關聯規則的挖掘。
在linux環境下,在使用weka之前,要配置好環境變量,將weka目錄下的weka.jar的位置加到classpath中,然后就可以調用weka的命令行進行數據挖掘了。weka的apriori算法優化非常不好,相當占用內存,大約50w的屬性開14G的內存都不夠用,所以如果在本機進行數據量較大的實驗的話,要選FPGrowth算法。FPGrowth算法只需要掃面兩遍數據庫,雖然他是遞歸的選擇rules的,也比較占用內存,但是如果有4G以上的內存的話,基本上就夠用了。至於FPGrowth的算法實現,就不做贅述了,網上一大堆,理解起來也不是很難。
weka默認的數據形式是.arff格式的,arff格式很簡單,支持稀疏格式,一般的關聯規則都要用稀疏格式的數據,提醒一點的是,構建稀疏格式的arff文件的時候,數據行上一定不要忘記加上{}。
FPGrowth的參數:-t,系統默認參數,是指定要進行挖掘的數據文件的;-N,是給出要輸出多少條規則;-T是指定選擇哪個量進行排序,weka提供四種排序方法,0=confidence ,1=lift , 2=leverage , 3=Conviction。4種參數代表的意義一查就有,0,1,3都是越大越好,2一般出來都是0。-C是指你選定的那個排序參數的那個最小值,-M是是支持度的最小值,-U是支持度的最大值。
進行挖掘的時候如果想把輸出結果保存的話,可以利用linux的管道,命令后面加上| tee yourFilename就好了。