不多說,直接上干貨!
Mahout是Apache Software Foundation(ASF)旗下的一個開源項目。
提供一些可擴展的機器學習領域經典算法的實現,旨在幫助開發人員更加方便快捷地創建智能應用程序。
Mahout包含許多實現,包括聚類、分類、推薦過濾、頻繁子項挖掘。此外,通過使用Apache Hadoop庫。
Mahout可以有效地擴展到雲中。
當然,也有資料這樣來梳理說,實際上當前它僅關注機器學習的三個主要領域,即推薦系統(協同過濾)、聚類和分類。
mahout是什么
Apache Mahout是Apache Software Foundation (ASF)旗下的一個開源項目,提供了一些經典的機器學習的算法,皆在幫助開發人員更加方便快捷地創建智能應用程序。目前已經有了三個公共發型版本,通過ApacheMahout庫,Mahout可以有效地擴展到雲中。Mahout包括許多實現,包括聚類、分類、推薦引擎、頻繁子項挖掘。
Apache Mahout的主要目標是建立可伸縮的機器學習算法。這種可伸縮性是針對大規模的數據集而言的。Apache Mahout的算法運行在ApacheHadoop平台下,它通過Mapreduce模式實現。但是,Apache Mahout並非嚴格要求算法的實現基於Hadoop平台,單個節點或非Hadoop平台也可以。Apache Mahout核心庫的非分布式算法也具有良好的性能。
Mahout 是一個機器學習 Java 類庫的集合,用於完成各種各樣的任務,如分類、評價性的聚類和模式挖掘等。
Mahout開源項目就是一個Hadoop雲平台的算法庫,已經實現了多種經典算法,並一直在擴充中,其目標就是致力於創建一個可擴容的雲平台算法庫。
在Hadoop雲平台下編程不僅要求用戶對Hadoop雲平台框架比較熟悉,還要對Hadoop雲平台下底層數據流、Map和Reduce原理非常熟悉,這是基本的編程要求。此外,用戶要編寫某一個算法還需要對該算法的原理比較熟悉,即需要對算法原理理解透徹。總體來看,編寫雲平台下的算法程序是屬於高難度的開發工作了。但是,如果使用Mahout,情況就會有很大的不同,用戶再也不用自己編寫復雜的算法,不需要掌握太高深的雲平台的框架和數據流程的理論知識。用戶所需要了解的只是算法的大概原理、算法實際應用環境和如何調用Mahout相關算法的程序接口。當然,在具體的項目中,用戶還應該根據實際需求在Mahout源代碼基礎上進行二次開發以滿足具體的實際應用情況。