張亞勤表示,大數據具有高容量、高速度、多類型等“3V”的特點,應用大數據發揮價值包括數據的管理、數據的擴充、數據的呈現三個層面。
大數據的3V
張亞勤表示,講到大數據3個V,一個是Volume,數據容量越來越大,第二個是 Velocity,數據量增長越來越快,需要處理的速度和響應的時間越來越快,對系統的延時要求相當高。第三個就是各種各樣類型的數據,過去的數據更多的是結構化的,現在越來越多的數據是半結構,甚至是完全沒有結構的數據,從企業里來的、從互聯網來的,從用戶來的各種各樣的數據都大量進入我們的服務器、進入數據中心,所以這里面產生了很多的挑戰,這么多數據怎么樣把它變成信息,怎么樣把信息變成知識,把知識變成決策,這就需要有更多的很好的數據處理能力。
面對這樣的挑戰,張亞勤認為,我們需要更多人從事一個叫數據科學家的職業,這些人需要有計算機科學的背景,需要有很強的數學背景,也需要有很強的統計學背景,要對大量的數據進行這樣的處理、邏輯的分析和結構化的呈現。
挖掘大數據價值的三個層面
張亞勤表示,大數據包括三個層面。首先是數據的管理,對各種來自不同的地方、不同的大小的數據,都進行采集和管理,這里面有實時的數據,也有非實時的數據。第二個層次,是數據的擴充,怎么樣去挖掘、推薦、轉換、清洗、按摩、分享和控制,這就是傳統的ETL流程。第三個層次,就是怎么樣把數據很好地呈現出來,用好的工具,大家獲得更直覺的洞察力。
微軟的數據平台根據這樣的職能,也分成三個不同的層次。這里面比較重要的,就是我們可以接收各種各樣的數據,在物理層次,有企業的、有IOT傳感器的、有從網絡里面經過爬蟲收集的數據。有了這些數據之后,根據數據不同的種類,如果是企業數據,我們有微軟的數據倉庫來進行處理。如果這個數據也可以到公有雲,也可以到私有雲,那我們支持大數據的平台是基於Hadoop,Hadoop是開源平台。在處理之后,上面是商業的智能平台,當然,最上面一層是好的可視化呈現的工具,包括 PowerView等等,就可以消化這些數據。
不過,張亞勤表示,談到大數據,我們就遇到一個挑戰,Hadoop可能對於處理大數據很有效,但是對流數據、實時的數據就不太有效,所以微軟開發了對於半實時、或者實時的軟件,這個流數據可以去實時地處理。這里面對於數據庫的要求都完全不一樣,所以,我們要有大量處理並行數據、流數據的能力。