What is Oryx?
大名鼎鼎的Sean Owen (http://www.linkedin.com/in/srowen) 正在 Cloudera 作為 Director of Data Science 專注投身於名為Oryx的開源機器學習項目當中。(Oryx意思是劍羚,屬於非洲羚羊的一類分支)。如果您讀過《Mahout in Action》這本書,您應該有印象:此書的作者之一就是Sean Owen。
Oryx的開發意圖在於幫助Hadoop用戶構建機器學習模式並將其加以部署,這樣我們就能夠以實時方式查詢並獲取其結果——例如將其作為垃圾郵件過濾器或者推薦引擎的組成部分。
作為Hadoop當中實現機器學習模式創建的傳統途徑,Apache Mahout "已經走到了發展道路的盡頭。"Owen如是說。
The Oryx open source project provides simple, real-time large-scale machine learning / predictive analytics infrastructure.
Architecture
Oryx does two things at heart: builds models, and serves models. These are the responsibilities of two separate components, the Computation Layer and Serving Layer, respectively.
在 IntelliJ IDEA 中編譯 Oryx
雖然我是忠實的 Visual Studio 的擁躉(老牌的Windows Phone Developer),但是在工作中不可避免也會遇到 Java 開發的工作,比如目前專注的基於機器學習算法的推薦引擎。對我而言,Eclipse 是生命中不能承受之輕(至少目前為止是如此),之前基於 Apache Mahout 所做的推薦算法是在 Eclipse 中編碼和生成Jar包,遇到的問題無數。比如在 Eclipse 中導入 不管是 Mahout 還是 Oryx 的源碼都出現我無法解決的編譯錯誤。眾所周知 Mahout 和 Oryx 都是基於 Maven 編譯的,而在我的 Eclipse 開發環境中出現的 Maven 編譯錯誤,花費了很多時間查找資料,但是最終還是無從解決。
在得知機器學習領域的大神Sean Owen 使用 IntelliJ IDEA 開發 Oryx ,毅然決然地安裝 IntelliJ IDEA Community Edition ( http://www.jetbrains.com/idea/download/ )。
在 Cloudera 的開發者社區 Data Science and Machine Learning 論壇您可發現 Owen 的足跡,耐心地為開發者解答 Apache Mahout 和 Oryx 的疑問。
在 Windows 8.1 中啟動 IntelliJ IDEA,打開從 GitHub 下載的 Oryx 開源代碼 (https://github.com/cloudera/oryx ) 。
在 Oryx Project 上點擊鼠標右鍵,選擇 "Maven" – "Reimport",IntelliJ IDEA 重新導入項目所依賴的 Maven Libraries。
至此,Oryx 的源碼即可編譯成功,研究之,學習之。