不多說,直接上干貨!
Weka介紹:
Weka是一個用Java編寫的數據挖掘工具,能夠運行在各種平台上。它不僅提供了可以直接用於數據挖掘的軟件,還提供了src代碼,使用者可以修改源代碼,進行二次開發。但是,由於其使用了Java虛擬機,導致其不適合處理大型數據,運行緩慢。處理超過一定大小數據,還會溢出heap size,使程序崩潰。但作為初學者,很適合通過處理一些小型數據集,以直觀地了解各種數據挖掘方法。它還自帶一些典型的數據集,可以直接使用。在安裝目錄下的data子目錄中。
Weka通常使用ARFF文件格式的文件。也可以直接使用CSV文件格式的文件,但與傳統CSV文件不同,Weka能識別的CSV文件要求第一行給各列的定義。因為CSV文件比較容易獲得,excel表格文件可以直接另存為csv文件。推薦使用csv文件。
以著名數據挖掘數據集鳶尾花為例,該數據集對應的iris.csv文件應如下所示:
sepal-length,sepal-width,petal-length,petal-width,class 5.1,3.5,1.4,0.2,Iris-setosa 4.9,3.0,1.4,0.2,Iris-setosa 4.7,3.2,1.3,0.2,Iris-setosa 4.6,3.1,1.5,0.2,Iris-setosa
1、使用Weka工具,將ARFF文件轉換成CSV文件
進入Explorer模塊,點擊界面上方的按鈕“open file”打開文件選擇面板,將面板下方的文件類型選擇“所有文件”,找到
iris.arff文件即可將數據導入到Explorer如下圖所示。
得到
2、使用Weka工具,將CSV文件轉換成ARFF文件
打開Weka的Explorer界面
比如,這里,我先把iris.arff拷貝到桌面去。
然后,在preprocess->open file
將面板下方的文件類型選擇“所有文件”,找到iris.csv
通過save可以將CSV文件另存為ARFF文件。格式如下圖所示:
成功!