
大數據與雲計算是什么關系?二者市場發展怎么樣?
大數據:
指無法在一定時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。
大數據領域的人才需求主要圍繞大數據的產業鏈展開,涉及到數據的采集、整理、存儲、安全、分析、呈現和應用,崗位多集中在大數據平台研發、大數據應用開發、大數據分析和大數據運維等幾個崗位。
大數據本身除了要有數據、采集、匯聚一定量的數據之外,更重要的是數據的處理、挖掘、分析、可視化、應用這樣一整套的過程。關於大數據的話題,基本圍繞三個問題展開:一是數據從哪里來,二是數據如何進行分析,三是數據如何進行商品化。
雲計算:
是基於互聯網的相關服務的增加、使用和交付模式,通常涉及通過互聯網來提供動態易擴展且經常是虛擬化的資源。
雲計算的應用目前正在經歷從IaaS向PaaS和SaaS發展,在用戶分布上也逐漸開始從互聯網企業向廣大傳統企業過渡,未來的市場空間還是非常大的。
二者關系:
大數據和雲計算各有不同的關注點,但是在技術體系結構上,都是以分布式存儲和分布式計算為基礎,所以二者之間的聯系也比較緊密。
從技術上看,大數據與雲計算的關系就像一枚硬幣的正反面一樣密不可分。大數據必然無法用單台的計算機進行處理,必須采用分布式架構。它的特色在於對海量數據進行分布式數據挖掘。但它必須依托雲計算的分布式處理、分布式數據庫和雲存儲、虛擬化技術。
從應用角度來看,大數據是雲計算的應用案例之一,雲計算是大數據的實現工具之一。
雲計算相當於我們的計算機和操作系統,將大量的硬件資源虛擬化之后再進行分配使用,在雲計算領域目前的老大應該算是Amazon,可以說為雲計算提供了商業化的標准,另外值得關注的還有VMware(其實從這一點可以幫助你理解雲計算和虛擬化的關系),開源的雲平台較有活力的就是Openstack了。
大數據相當於海量數據的“數據庫”,而且通觀大數據領域的發展也能看出,當前的大數據處理一直在向着近似於傳統數據庫體驗的方向發展,Hadoop的產生使我們能夠用普通機器建立穩定的處理TB級數據的集群,把傳統而昂貴的並行計算等概念一下就拉到了我們的面前,但是其不適合數據分析人員使用(因為MapReduce開發復雜),所以PigLatin和Hive出現了(分別是Yahoo!和facebook發起的項目,說到這補充一下,在大數據領域Google、facebook、twitter等前沿的互聯網公司作出了很積極和強大的貢獻),為我們帶來了類SQL的操作,到這里操作方式像SQL了,但是處理效率很慢,絕對和傳統的數據庫的處理效率有天壤之別,所以人們又在想怎樣在大數據處理上不只是操作方式類SQL,而處理速度也能“類SQL”,Google為我們帶來了Dremel/PowerDrill等技術,Cloudera(Hadoop商業化較強的公司,Hadoop之父cutting就在這里負責技術領導)的Impala也出現了。
大數據與雲計算前景:
當前整個IT行業對於大數據和雲計算人才的需求量還是比較大的,近幾年相關方向研究生的就業情況還是比較不錯的,一方面崗位級別比較高,另一方面薪資待遇也比較可觀,而且薪資待遇正呈現出逐年上升的發展趨勢。