Weka中數據挖掘與機器學習系列之數據格式ARFF和CSV文件格式之間的轉換（五）

本文轉載自查看原文 2017-05-11 18:08 3036 Weka中數據挖掘與機器學習

　　不多說，直接上干貨！

Weka介紹：

　　Weka是一個用Java編寫的數據挖掘工具，能夠運行在各種平台上。它不僅提供了可以直接用於數據挖掘的軟件，還提供了src代碼，使用者可以修改源代碼，進行二次開發。但是，由於其使用了Java虛擬機，導致其不適合處理大型數據，運行緩慢。處理超過一定大小數據，還會溢出heap size，使程序崩潰。但作為初學者，很適合通過處理一些小型數據集，以直觀地了解各種數據挖掘方法。它還自帶一些典型的數據集，可以直接使用。在安裝目錄下的data子目錄中。

　　Weka通常使用ARFF文件格式的文件。也可以直接使用CSV文件格式的文件，但與傳統CSV文件不同，Weka能識別的CSV文件要求第一行給各列的定義。因為CSV文件比較容易獲得，excel表格文件可以直接另存為csv文件。推薦使用csv文件。

　　以著名數據挖掘數據集鳶尾花為例，該數據集對應的iris.csv文件應如下所示：

sepal-length,sepal-width,petal-length,petal-width,class  
5.1,3.5,1.4,0.2,Iris-setosa  
4.9,3.0,1.4,0.2,Iris-setosa  
4.7,3.2,1.3,0.2,Iris-setosa  
4.6,3.1,1.5,0.2,Iris-setosa