RapidMiner提供了可視化的數據挖掘技術,可視化建模簡化了數據挖掘的工作,其5.3版本是開源的版本(代碼全部用Java實現),但這個版本缺少對hadoop的支持(rm6已經支持hadoop,但6的版本是不開放源碼的),現因工作需要,需要在5.3開源版本的基礎上添加hadoop組件,支持以hadoop中的數據作為數據源,進行數據挖掘相關工作。
RapidMiner studio是RapidMiner的客戶端,其核心功能由operator(操作因子)、process(挖掘任務)、Repository(存儲庫)組成。
operator包含數據導入導出、數據轉換、數據建模、模型評估等功能。
process由operator組成。
Repository是存儲庫,用來存放procss的配置信息等。
存儲庫分為本地和遠程(即server端)二種,RapidMiner server除了存放挖掘任務的配置信息外,主要負責任務的調度運行。
要添加RapidMiner對hadoop的支持,先需要研究清楚當前5.3版本的源碼,以了解其架構,以下是對RapidMiner源碼的學習研究:
三 :RapidMiner Studio之Action源碼分析
四 :RapidMiner Studio之Process源碼分析
五 :RapidMiner studio之Operator源碼分析
RapidMiner5.3下載地址:https://my.rapidminer.com/nexus/account/index.html#downloads
RapidMiner5.3源碼地址:https://github.com/rapidminer/rapidminer