大數據4個明顯的特征,大數據思維四個遞進的層次


大數據4個明顯的特征,大數據思維四個遞進的層次

大數據4個明顯的特征:
1.數據量足夠大,要大到讓統計的結果具有非常高的置信度
2.具有多維度的特征,而且各個維度最好是正交的
3.數據的完備性,完備性使得大數據可以算無遺策
4.在一些場景下的實時性,比如堵車信息一定時間過了數據就失去意義了
--------
大數據思維四個遞進的層次:
第一層:從大量的、看似雜亂無章的數據點,總結出原來找不到的相關性。
第二層:不事先作假定,從大數據出發先得到結論,再分析原因。
第三層:利用大數據在准確把控宏觀規律的同時,精確到每一個細節。
第四層:用不同維度找到的強相關性可以取代因果關系。

--------------
大數據的4個明顯的特征,即數據量大、多維度、完備性和在一些場景下的實時性。我們特別強調了光是數據量大還不能構成大數據,因為它可能無法得出有效的統計規律,而多維度的特征則讓我們可以交叉驗證信息,提高准確性。
--------------
首先,大數據要求數據量大,這一點大家沒有疑問。數據量小一定不符合大數據的原則。至於數據量多大合適,我們在前面介紹了置信度的概念,數據至少要大到讓統計的結果具有非常高的置信度。

其次,大數據需要具有多維度的特征,而且各個維度最好是正交的。今天,淘寶或者其他網店,能夠有效地給你推薦產品,在很大程度上就是因為它不僅具有了你在網上購物的數據,而且還從其他渠道,包括在你不知不覺中,獲得了生活上的信息。

比如,它可以根據你上網的行為,了解你的年齡、性別和教育背景,根據你晚上和白天的地點,了解你的工作地點和住址,甚至你的工作性質和生活習慣,比如是否經常出差,在什么樣的飯店吃過飯,是否愛運動,是否使用名牌產品等等。

由於阿里巴巴數據收集的時間跨度比較長,它還可以看出人們消費習慣的變化。根據這些信息,它就知道你是誰,需要什么。在沒有大數據之前,這種事情很難做到。

大數據第三個重要特征,是數據的完備性,它在過去常常被人忽略,因為人類過去使用數據,都是采用抽樣的辦法來獲取,根本不可能做到完備。抽樣統計有一個問題,就是總有5%左右的小概率事件覆蓋不到,如果最后運氣不好,正好落在那5%,統計的方法就失去作用了。

今天情況就不同了,因為收集數據的設備無所不在,我們也在有意無意向它輸送數據,因此獲得完備的信息完全可能,這樣一來就堵住了采用數據作預測的死角。

我們在前面講到提高名片識別率的方法,就是從網上抓取全部的企業和私人聯系地址,拿它們和從名片識別出的信息進行比對,就可以過濾掉幾乎所有的錯誤。這里面其實就是用到了數據的完備性——也就是說,全部的地址、電話等數據我都收集完備了。完備性使得大數據可以算無遺策。

除了上述三個特征,很多時候大數據還需要具有實時性,因為在那些應用場景,一定時間過了,數據就失去意義了。

--------------
我們過去說,量變會帶來質變,那常常是在一個維度上說的,而今天我們說大數據思維,已經超出了這一層含義,是一種全新的思維方式和做事情的方法。

今天大部分人所理解的大數據,是從大量的、看似雜亂無章的數據點,總結出原來找不到的相關性。在這個過程中各種數據如同百川入海一般匯聚到一起。我們在前面已經舉了不少這一類的例子。但這只是大數據思維的第一層含義。

我們需要強調的是,大數據思維和過去通過大量數據驗證一件事還是有區別的。那就是由於這些數據在產生和收集時是沒有特定目的的,因此怎樣使用它們,則需要視特定的應用而定。

比如Google趨勢這個產品就用到了大數據,由於收集數據事先沒有目的性,從這些數據中能夠得到什么結果事先也不知曉,這讓它發現了很多過去沒有想到的規律。

今天這種做法其實是先有了結果,再反推原因,是一種逆向的做法,但是正是因為有了足夠的數據支持,它無疑會比較快。不事先作假定,從大數據出發先得到結論,再分析原因,這是大數據思維的第二層。

因此,用不同維度找到的強相關性可以取代因果關系,這是大數據思維的第四個層次。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM