一、什么是arff格式文件
1、arff是Attribute-Relation File Format縮寫,從英文字面也能大概看出什么意思。它是weka數據挖掘開源程序使用的一種文件模式。由於weka是個很出色的數據挖掘開源項目,所以使用的比較廣,這也無形中推廣了它的數據存儲格式。
2、下面是weka自帶的一個arff文件例子(weather.arff)
1 @relation weather
2
3 @attribute outlook {sunny, overcast, rainy}
4 @attribute temperature real
5 @attribute humidity real
6 @attribute windy {TRUE, FALSE}
7 @attribute play {yes, no}
8
9 @data
10 sunny,85,85,FALSE,no
11 sunny,80,90,TRUE,no
12 overcast,83,86,FALSE,yes
13 rainy,70,96,FALSE,yes
14 rainy,68,80,FALSE,yes
15 rainy,65,70,TRUE,no
16 overcast,64,65,TRUE,yes
17 sunny,72,95,FALSE,no
18 sunny,69,70,FALSE,yes
19 rainy,75,80,FALSE,yes
20 sunny,75,70,TRUE,yes
21 overcast,72,90,TRUE,yes
22 overcast,81,75,FALSE,yes
23 rainy,71,91,TRUE,no
a) 第1行,是關系名稱,這個自己隨便起,不過寫的最好要有意義。
b) 第3~7行是特征列表,其中第1列是特征說明,不可缺少,第2列是特征名稱,第3列是特征類型或特征取值范圍。
c) @data(第9行)是數據域說明,在它下面的全是數據。其中每一行體表一條數據。
d) 例子中給出的數據域是最基本的表示方法,實際應用中,一般都是用稀疏表示法。
e) 此處對於arff文件格式不做進一步解釋,不懂的地方可以給我留言。
二、總體思路
1、生成特征文件
2、文件格式轉換
三、具體實現
參考:weka數據挖掘拾遺(一)---- 生成Arff格式文件
四、weka csv轉為arff
雖然Weka也支持其他一些格式的文件,但是ARFF格式是支持的最好的。因此有必要在數據處理之前把數據集的格式轉換成ARFF。
參考:http://miaochen314.blog.163.com/blog/static/8696422009227101756428/