Weka中數據挖掘與機器學習系列之數據格式ARFF和CSV文件格式之間的轉換(五)


 

 

 

  不多說,直接上干貨!

 

Weka介紹:

  Weka是一個用Java編寫的數據挖掘工具,能夠運行在各種平台上。它不僅提供了可以直接用於數據挖掘的軟件,還提供了src代碼,使用者可以修改源代碼,進行二次開發。但是,由於其使用了Java虛擬機,導致其不適合處理大型數據,運行緩慢。處理超過一定大小數據,還會溢出heap size,使程序崩潰。但作為初學者,很適合通過處理一些小型數據集,以直觀地了解各種數據挖掘方法。它還自帶一些典型的數據集,可以直接使用。在安裝目錄下的data子目錄中。

  Weka通常使用ARFF文件格式的文件。也可以直接使用CSV文件格式的文件,但與傳統CSV文件不同,Weka能識別的CSV文件要求第一行給各列的定義。因為CSV文件比較容易獲得,excel表格文件可以直接另存為csv文件。推薦使用csv文件。

  以著名數據挖掘數據集鳶尾花為例,該數據集對應的iris.csv文件應如下所示:

sepal-length,sepal-width,petal-length,petal-width,class  
5.1,3.5,1.4,0.2,Iris-setosa  
4.9,3.0,1.4,0.2,Iris-setosa  
4.7,3.2,1.3,0.2,Iris-setosa  
4.6,3.1,1.5,0.2,Iris-setosa  

 

 

 

 

1、使用Weka工具,將ARFF文件轉換成CSV文件

 

 

  進入Explorer模塊,點擊界面上方的按鈕“open file”打開文件選擇面板,將面板下方的文件類型選擇“所有文件”,找到

iris.arff文件即可將數據導入到Explorer如下圖所示。

 

 

   得到

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2、使用Weka工具,將CSV文件轉換成ARFF文件

  打開Weka的Explorer界面

 

  

  比如,這里,我先把iris.arff拷貝到桌面去。

 

 

 

 

  然后,在preprocess->open file

 

 

 

  將面板下方的文件類型選擇“所有文件”,找到iris.csv

 

 

 

 

 

 

  通過save可以將CSV文件另存為ARFF文件。格式如下圖所示:

 

 

 

 

 

 

 

 

 

  成功!


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM