一、了解rapidminer數據挖掘工具
1.1功能界面
1.2功能區域說明
·視圖區
主要包括:
- 設計模型區域的展示
- 根據創建好的模型輸出的執行結果展示
·中央倉區
主要包括內容:
- 工具自帶的一些示例數據和模型
- 自己創建的模型
·算法區
主要包括內容:
- 工具自帶的算法,用戶可以根據自身需要進行使用這些算法
·模型設計區
主要包括內容:
- 用來展示工具自帶的模型結構
- 用戶可以自己導入數據設計自己的模型
- inp代表輸入,res代表事件的輸出,inp和res是rapidminer固有的屬性
·參數屬性區
主要包括:
1.用來對模型設計區展示的算法的對應參數屬性的設置
二、數據預處理建模
2.1新建流程
打開rapidminer界面之后,點擊左上角的“新建”按鈕,新建一個流程,在模型設計區域會出現一個空白的process。
2.2導入數據
點擊左側的Repository中的Import Data按鈕,該按鈕表示導入數據,點擊之后會彈出一個窗口,數據來源包括My Computer和Database,我們這里以本地數據為例,選擇My Computer按鈕。
點擊My Computer按鈕后選擇自己本地的數據,如下圖所示:
然后選擇next,直到finish(這里注意,本地的數據的列名稱不要重復,否則會提示錯誤)
這是導入數據時的界面
數據文件導入成功后,在rapidminer工具的Results選項卡中會展示導入的數據,同時會在Repository欄目中展示出導入的文件名稱,如下圖所示:
注意:如果沒有數據可以根據下圖去自行建立一個excel表數據:
2.3數據預處理過程
- 新建完流程並成功導入數據文件之后,在rapidminer中選擇Design選項卡
- 在Repository欄目中找到導入的數據文件
- 將數據文件拖到process區域中,如下圖所示:
4.分析用戶畫像數據,發現數據中包含缺省值,所以我們需要將數據中的缺少值進行處理,查看數據中是否有缺省值,如圖所示:
導入的數據中某一字段下沒有數據
5.根據預先確定好的缺省值,我們在Operators欄目的搜索框中搜索“replace missing values”,即代替缺省值的處理算法模型,如下圖所示,將其拖入到Process區域中
6.將用戶畫像分析模型out和“replace Missing Values”模型的exa相連線,並與rapidminer的res輸出鍵連線,如圖所示:
7.點擊Process區域中的“Replace Missing Values”模型后,通過右側的Parameters來設置相關參數,如下圖所示:
·attribute filter type:屬性的過濾標簽,可以針對所有的(all)屬性進行操作,也可以按照單個的(single)屬性進行處理。
·attribute:用戶數據的列名稱,即針對具體哪個列進行數據處理。
·default:默認值,比如針對value進行設置
·replenishment value:value對應的值,這里設置為N,意思是我想讓所有的缺省值的value都統一設置為N(N代表該用戶沒有購買傾向)
8.點擊執行按鈕,看一下效果,如圖所示:
·1處為執行按鈕,在第7步的界面下點擊執行按鈕會出現上圖所示的界面效果
·2處為replace missing value后的數據展示
·3處可以明顯的看到5行和6行原本的空置被替換成了我們設置的N
9.在之前的步驟上我們嘗試對用戶畫像分析數據進行數據清洗,在Operators中搜素 “filter Examples”模型,並將模型拖動到Process區域中,並將其連線,如圖所示:
10.點擊Process區域的filter Examples模型,在Parameters欄中設置過濾清洗的條件,我這里設置的是活躍度>=0.3,如下圖所示:
11.完成條件設置之后,點擊OK,然后回到Design,點擊執行按鈕,出現如圖所示界面:
·用戶畫像數據由原來的九條數據變成了六條數據,將不符合條件的數據清洗掉了
·保留了活躍度>=0.3的數據
12.在之前的步驟上我們嘗試對用戶畫像分析數據進行數據約減屬性處理(即只展示有用的列),在Operators中搜素 “select att”模型,並將模型拖動到Process區域中,並將其連線,如圖所示:
13.點擊Process區域的select Attributes模型,在Parameters欄中設置,我這里設置的是subset,然后點擊“select Attributes”按鈕,選擇要保留的列,如下圖所示:
·彈出的窗口會默認展示用戶畫像分析數據中所有的列名
·我這里將畫對勾的通過“→”添加到右側欄中(即我想要展示的列名),效果如下圖:
·然后點擊apply按鈕
14.點擊完apply按鈕后會回到Design界面,然后點擊執行按鈕看一下效果。如下圖:
·結果頁面中只展示了我們想要展示的列
2.4導出數據
- 根據上述步驟完成數據的預處理后,我們現在將處理后的數據進行導出
- 回到Design界面下,在Operators中選擇Data Access》Files》Write》write CSV,將write CSV拖在Process中,並將其連線,如下圖所示:
3.單擊選中Write CSA模型,在其對應的Parameters中設置相關信息,如下圖所示:
·csv file:導出文件的保存地址
·column separator:分隔符
·write attribute names:是否顯示列名稱
·quote nominal values:是否顯示分隔符
·append to file:在已有的數據基礎上新增數據