本文來自網易雲社區。
麥肯錫對於“大數據”的定義是:一種規模大到在獲取、存儲、管理、分析方面大大的超出了傳統數據庫軟件工具能力范圍的數據集合,具有4V特征,即Volumn(海量的規模)、Velocity(快速的流轉)、Variety(多樣的類型)和Value(低密度的價值)。“大”指的是數據規模,大數據一般指在10TB(1TB=1024GB)規模以上的數據量。
我們應該怎么去理解這句話呢,首先,我們知道,在大數據出現之前,我們對數據的日常處理分析常常使用的是諸如sqlsever/oracle/mysql等傳統關系數據庫,處理T級別的數據量已經是這些數據庫的極限,面對PB/EB/ZB級的數據量那就更無能為力了。那是不是以前就沒有這么大的數據量呢,也不是,早在20世紀80年代,未來學家 阿爾文托夫勒 就將大數據稱作“第三次浪潮的華彩樂章”,只不過當時由於數據處理能力有限,所以大數據一直沒有被提起來,直到2005年,Hadoop項目誕生,從技術層面上搭建了一個使對結構化和復雜數據快速、可靠分析變為現實的平台。從這個時候開始,“大數據”才逐步成為互聯網信息技術行業的高頻詞匯,為人們所熟知。從這個上,我們可以看出,技術的發展不僅在改變人們的生活,其本身也在推進着更高級的技術的誕生。話說回來,“大數據”是不是只是一種規模大的數據集合就夠了呢,顯然不是的,還必須具備4V的特征。先說說海量的數據規模,前面說到處理PB/EB/ZB級的數據量,正是大數據優勢所在,處理數據量的PB化,以前是不可能的事情,但在大數據時代,將會是一個常態,這是一個什么概念呢,一部高清電影約4g,一個PB=1024*1024g,大數據瞬時處理1PB的數據量,就相當於瞬時處理26萬部的高清電影的量。其次,說到“快速的數據流傳”,怎么說呢,所有數據都有時效的,商業業務決策也是有時效的,如果不快速處理,得到結果來,那么就很可能會失去商機,所以,我們也在一直強調利用大數據做實時分析。再次,“多樣的數據類型”又是什么呢,在大數據走進大眾之前,傳統的數據處理工具,往往處理的是標准的結構化的數據,也就是存在於我們的數據庫表格中的數據。針對非結構化的數據,比如文本、語音、視頻、圖像等等,這是大數據要經常面對的事情。最后,“價值密度低”,這個概念有點抽象,怎么去理解呢,大數據是一個海量的數據,在大海中撈針,這針就是我們的寶藏。但我們把這個針經過一系列的分析處理確定是在某一平方米的水域,那么這個密度就會高很多了,在這一塊區域去撈針就容易獲得成功多了。
另一個對於“大數據”的說法是:當現有的技術不能再管理你的數據或者提升數據質量的時候,你就得打開“大數據”的大門。你的數據越來越多,普通的存儲器不能再存儲這些數據了,因為它處理速度低下、搜索或分析時間太長、服務器運轉不過來、新數據來源太快以至於不能及時處理,等等。所以,當你涉及的資料量規模巨大到無法透過目前主流軟件工具,在合理時間內達到擷取、管理、處理、並整理成為幫助企業經營決策更積極目的的資訊的時候,你就需要換個方法來處理數據——“大數據”的應用。
引入一些“大數據”產品,例如Spark或者Hadoop,尋找新的方式來處理ETL(數據倉庫技術)流程、更復雜的負載平衡、更靈活的搜索工具。
利益相關:網易猛獁大數據平台作為一站式的應用開發和數據管理平台,通過大數據開發套件,將數據開發、任務運維、自助分析、數據管理、項目管理等工作通過工作流的方式有效的串聯起來,提供敏捷易用的用戶操作界面,降低了大數據分析的使用門檻,顯著的提高了數據開發工程師和數據分析師的工作效率。猛獁大數據平台在電商、音樂、雲課堂學習、企業工業制造等領域已廣泛應用,基於持續的需求驅動,通過多行業的業務驗證,同時豐富全面的組件,提供完善的平台能力,滿足不同類型的業務需求。
在對數據的分析處理過程中,數據的安全重要性不言而喻。猛獁平台底層使用Kerberos認證,實現了數據的安全性和隔離性。除了認證系統,利用Ranger實現了細粒度的權限控制,保證了各個租戶只能查看授權訪問的表、庫和字段。不僅如此,平台還提供審計功能,通過對用戶平台行為進行記錄、分析和匯報,用來幫助對事故追根溯源,提高了平台的安全性。點擊可免費試用