轉自:http://blog.sina.com.cn/s/blog_687194cd01017lgu.html
調研Hadoop頗久,就是想知道hadoop是什么?hadoop能做什么?怎么用hadoop?最主要是這三塊,至於投入和風險也會隨之出來(濃縮了我幾十頁的調研方案啊!!!)
- hadoop是什么?
Hadoop是一個開源的框架,可編寫和運行分布式應用,處理大規模數據,是專為離線和大規模數據分析而設計的,並不適合那種對幾個記錄隨機讀寫的在線事務處理模式。Hadoop=HDFS(文件系統,數據存儲技術相關)+ Mapreduce(數據處理),Hadoop的數據來源可以是任何形式,在處理半結構化和非結構化數據上與關系型數據庫相比有更好的性能,具有更靈活的處理能力,不管任何數據形式最終會轉化為key/value,key/value是基本數據單元。用函數式變成Mapreduce代替SQL,SQL是查詢語句,而Mapreduce則是使用腳本和代碼,而對於適用於關系型數據庫,習慣SQL的Hadoop有開源工具hive代替。 - hadoop能做什么?
hadoop擅長日志分析,facebook就用Hive來進行日志分析,2009年時facebook就有非編程人員的30%的人使用HiveQL進行數據分析;淘寶搜索中的自定義篩選也使用的Hive;利用Pig還可以做高級的數據處理,包括Twitter、LinkedIn 上用於發現您可能認識的人,可以實現類似Amazon.com的協同過濾的推薦效果。淘寶的商品推薦也是!在Yahoo!的40%的Hadoop作業是用pig運行的,包括垃圾郵件的識別和過濾,還有用戶特征建模。(2012年8月25新更新,天貓的推薦系統是hive,少量嘗試mahout!) - hadoop能為我司做什么?
零數據基礎,零數據平台,一切起點都是0。
- 日志處理
- 用戶細分特征建模
- 個性化廣告推薦
- 智能儀器推薦
一切以增加企業的商業價值為核心目的、最終目的
4.怎么用hadoop?
- hadoop的應用的在我司還屬於研發型項目,擬用日志的分析來走通一次流程,因為此階段目前來說還不需要數據挖掘的專業人員,在數據分析階段即可,而系統有數據庫工程師,Mapreduce有java開發工程師,而分析由我本人介入,而可視化暫時可由前端JS實現,本來我的調研方案,針對大數據的解決方案是hadoop+R的,但是對於R我們是完全不懂,在公司還沒有大量投入人員的情況下,只有日志分析目前看來是最容易出成果的,也是可以通過較少人員能出一定成果的,所以選取了這個方向作為試點。
首先要進行數據的存儲,一是要協調上游的服務廠商,關於日志的抓取,二是hadoop系統的搭建,目前已經在緊張的籌備中了。