前記:這是我老婆隨手寫的一篇文章,結合了她當前的分析工作和雲計算,介紹了雲計算對大數據分析的助力。
在互聯網后時代,數據分析已經成為企業保持競爭力的必要方法。企業在成長和發展的過程中積累了海量的數據,這些歷史數據不管是通過紙質媒介,還是通過硬盤記錄下來,都是企業寶貴的數據資產。對數據進行數字化處理,創建數據倉庫,訓練數據模型,然后使用一定的分析方法,從數據中挖掘出用戶的行為和偏好,發現對決策有潛在價值的關系、模式和趨勢,幫助企業的管理層做出更有效的決策。而數據分析還能夠根據企業經營的數據,監控企業經營的指標,進而量化企業的管理,這都體現出大數據的巨大商業價值。
目前,離開高質量的數據,很難有企業仍然可以高效運行,各企業都依賴於它們的數據資產以做出更為明智和有效的決策。事實上,市場領導者正利用數據資產,通過豐富的客戶資料、信息創新和高效運營取得競爭優勢。企業通過數據資產,針對性地向客戶提供更好的產品和服務,這樣不僅可以降低成本,控制風險,還能精准定位問題,發現商機。隨着企業對數據需求的不斷增長,以及企業對數據的依賴性不斷增強,人們越來越清楚地意識到數據資產的商業價值。
那么數據分析的價值有多大呢?離開數據分析,許多企業都不能進行有效的市場分析、比較類似產品的顧客反饋、發現競爭對手的優勢和缺點、留住高價值的顧客、做出聰明的決策等。從數據中獲取價值如此重要,以至於幾乎所有的企業都在做數據分析,但是,大數據的存儲、提取、處理和分析都是非常耗費財力、物力和人力的。如果不能使用最低的成本獲得到數據中隱藏的價值,企業同樣活不下去。
雲計算是一個降低數據分析成本的創新技術,它通過一體化、自動化、智能化的IT系統,將傳統運維工作中的大量簡單、重復性的手工工作通過軟件實現,使運維人員有更多精力、條件,投入到整個服務生命周期當中。雲計算是網格計算、分布式計算、並行計算、效用計算、網絡存儲、虛擬化、負載均衡等傳統計算機技術和網絡技術發展融合的產物,旨在通過網絡把很多個成本相對較低的計算實體整合成一個具有強大計算能力的完美系統,並借助SaaS、PaaS、IaaS、MSP等先進的商業模式把這強大的計算能力分布到終端用戶手中。雲計算的一個核心理念就是通過不斷提高“雲”的處理能力,進而減少用戶終端的處理負擔,最終使用戶終端簡化成一個單純的輸入輸出設備,並能按需享受“雲”的強大計算處理能力。 雲計算的核心思想,是將大量用網絡連接的計算資源統一管理和調度,構成一個計算資源池向用戶按需服務。通俗來說,雲計算其實就是讓計算、存儲、網絡、數據、算法、應用等軟硬件資源像電一樣,隨時隨地、即插即用。鑒於雲計算兼顧存儲容量大、計算力強、安全、服務全面、彈性擴展、部署簡便、即插即用和費用低廉等明顯的優勢,雲計算已經成為把企業的大數據變成商機的首選方法。
從數據中洞察商機、提取價值,並不是一件容易的事,跟企業的數據、資源和人力有很大的關系。企業積累的原始數據,隨着企業的發展和業務的增加,數據量持續增加,這增加了讀取和處理數據的難度;由於各種原因,比如,人為的錄入錯誤,系統出現異常,數據源異構等原因,導致企業的數據出現缺失、不一致、數據異常等問題,這些臟數據不僅會降低數據的質量,還會影響數據分析的結果。那么,雲計算是如何幫助企業把一堆堆雜亂信息轉化成經濟效益的呢?
雲技術支持海量數據的存儲。進入信息化時代之后,數據量在不斷的增長,TB、PB級別的數據量已經司空見慣,這么大的數據量已經超出了單台小型服務器的處理上限,相應地,企業維護如此海量數據的成本也成指數級上升。企業應付數據量激增的傳統的做法是采購大量的硬件設備,招聘更多的專業技術人員,搭建網絡系統以支持數據的存儲和處理,這不僅會耗費企業巨大的財力、人力和時間,還會增加系統維護的成本,在短期內給企業造成很大的經濟負擔。而雲計算天生具備大數據的存儲能力,或者說,雲計算就是為了處理大數據而誕生的。當遇到數據量激增時,企業使用雲計算的彈性擴展服務,可以按需擴展系統的數據存儲能力。
雲計算支持對海量數據的快速讀取和處理。存儲數據的目的是為了提取數據,並且不是所有的數據都能直接用於數據分析,因此,在分析數據以獲得有商業價值的分析結果之前,必須對數據做適當的處理。當數據量達到PB級別時,傳統的數據讀取技術不僅非常耗費時間,而且非常耗費系統的內存、計算和網絡資源。在面對海量數據時,如果提取、處理和利用數據的成本超過了數據價值本身,那么有價值也相當於沒價值。雲計算擁有強大的數據處理能力,其分布式的、可擴展的設計能夠應對海量數據的處理任務,比如,異常數據的處理、離群點的分析、數據質量的分析等。對於企業而言,雲計算可以提供按需擴展系統的計算力和內存資源的服務,以低廉的價格實現大數據的提取和處理,為分析海量數據提供了可能性。
雲計算對資源的管理是彈性的。數據分析跟企業的日常事務相比,屬於低頻操作,但它對系統內存、計算力和帶寬的消耗是十分巨大的。如果企業為了某一次或某幾次的數據分析任務,而花費重金升級硬件設備,那么這會導致大量設備的閑置,降低資金的回報率。在這種情況下,使用雲計算是應付大數據分析任務的不二之選,因為雲計算服務管理的資源是彈性的,數據分析需要的資源,想什么時候要就什么時候要,想要多少就有多少;在不需要這些資源時,企業不需要為這些資源額外付費。當前,公有雲技術已經十分成熟,國內最好的公有雲平台是阿里雲。阿里雲提供按時、按量計費的服務,這使得企業能夠以最低的成本獲得數據分析的結果。企業不需要采購硬件、搭建網絡、招聘專業人員,只需要購買服務,就可以用多少資源,付多少錢。
雲計算的即插即用。雲計算不再是高冷的技術,它已經成為提供資源的基礎服務。絕大多數企業不再需要耗費時間、金錢和精力去搭建自己的網絡系統,也不需要去關注技術的實現細節,只需要一根網線接入雲,就能享受雲計算的強大馬力。雲計算的便利性,使得數據分析不再局限於底層資源,企業只需要關注業務層面上的分析。
雲計算提供的算法可高效分析數據。從大量數據中挖掘出隱含的、未知的、對決策有潛在價值的關系、模式和趨勢,這是數據分析的價值所在。從數據的巨大礦坑中發現微小的金子,不僅需要硬件支持,還需要算法的協助。雲計算不僅管理資源,還管理算法。雲計算平台上管理着大量的通用算法和數據集,企業只需要支付少量的費用就可以直接使用,這就為大數據分析提供強大的算法支持,避免了二次開發,使得數據分析更加快速和高效。
雲計算是十分安全的,雲計算平台都有專門的安全團隊,負責保護企業的數據資產不會丟失和泄露。大數據是數據分析的養分,如果數據丟失,這會直接導致數據分析的結果失真,甚至影響企業的正常運營;而敏感數據的泄露,甚至會導致企業的破產清算。很多客戶擔心公有雲的安全問題,不管是數據泄露的風險,還是停止服務的風險,公有雲都遠遠小於自己架設的機房。雲計算依托大型數據中心、規模化應用和強大的運維體系等優勢環節,讓雲主機的可靠性遠超傳統小型數據中心,因此,企業不需要擔心數據的丟失,泄露等風險。雲上的數據是十分安全的,使得數據分析的結果是可信的。
雲計算的上述優點,使得雲計算成為除水、電、煤氣之外的另一個重要的公共基礎設置服務。雲計算助力數據分析,使得企業不需要關注數據的存儲和計算等資源,可以把更多的精力投放到數據的分析和業務的優化上,以獲得更多有價值的信息、提高企業的競爭力。