weka使用筆記1-FPGrowth注意事項和參數說明

本文轉載自查看原文 2012-10-20 17:28 2928 weka/ datamining/ 參數/ 數據挖掘

weka是一個很好的數據挖掘實驗的工具，可以進行標准的數據挖掘的各種實驗，首先來說一下關聯規則的挖掘。

在linux環境下，在使用weka之前，要配置好環境變量，將weka目錄下的weka.jar的位置加到classpath中，然后就可以調用weka的命令行進行數據挖掘了。weka的apriori算法優化非常不好，相當占用內存，大約50w的屬性開14G的內存都不夠用，所以如果在本機進行數據量較大的實驗的話，要選FPGrowth算法。FPGrowth算法只需要掃面兩遍數據庫，雖然他是遞歸的選擇rules的，也比較占用內存，但是如果有4G以上的內存的話，基本上就夠用了。至於FPGrowth的算法實現，就不做贅述了，網上一大堆，理解起來也不是很難。

weka默認的數據形式是.arff格式的，arff格式很簡單，支持稀疏格式，一般的關聯規則都要用稀疏格式的數據，提醒一點的是，構建稀疏格式的arff文件的時候，數據行上一定不要忘記加上｛｝。

FPGrowth的參數：-t，系統默認參數，是指定要進行挖掘的數據文件的；-N，是給出要輸出多少條規則；-T是指定選擇哪個量進行排序，weka提供四種排序方法，0=confidence ，1=lift ， 2=leverage ， 3=Conviction。4種參數代表的意義一查就有，0，1，3都是越大越好，2一般出來都是0。-C是指你選定的那個排序參數的那個最小值，-M是是支持度的最小值，-U是支持度的最大值。

進行挖掘的時候如果想把輸出結果保存的話，可以利用linux的管道，命令后面加上| tee yourFilename就好了。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 emWin使用注意事項-筆記 Java中可變長參數的使用及注意事項 rsync 參數說明及使用參數筆記好文 Java中可變長參數的使用及注意事項 mysqldump 使用及其注意事項 SqlBulkCopy使用注意事項視圖的使用及注意事項 In和Not In的使用注意事項和區別 dvaJs使用注意事項 NSTimer使用注意事項