轉載:海天漁歌的博客
作為一本科技類的圖書,《大數據時代》出版一年時間依舊火熱,並且在機場書店暢銷書架和地鐵附近盜版書攤都能夠看得到,不能不說是個傳奇。“大數據釋放出的極高價值不但會讓它成為一筆不錯的交易,而且也是不可避免的。但是在我們到達最終目的地之前,我們有必要了解我們怎樣到達。”維克托·邁爾·舍恩伯格在《大數據時代》一書中這樣說。事實真是這樣嗎?就是在一年的火爆之中,我們也時常能夠聽到一些對於《大數據時代》質疑的聲音。其中最多的,就是作者過多偏重對於大數據案例實用角度的功利性解讀,有時甚至是重復或過度解讀,以及過分的強調相關性,而對於追求因果性絕對的放棄。比如,作者提出強調“強關系”,而不是弱關系。認為知道“是什么”就夠了,沒有必要知道“為什么”。
的確,舍恩伯格在《大數據時代》一書中這樣寫道:“我們沒有必要非得知道現象背后的原因,而是要讓數據自己發聲。”以及“相關關系能夠幫助我們更好地了解這個世界。”他認為,建立在相關關系分析法上面的預測是大數據的核心。通過找到“關聯物”並監控它,我們就能夠預測未來。另外書中也存在一些搖擺和含混的概念,例如和他提出的全量數據理論相悖的是,從實用角度,他也建議當收集、分析、存儲數據成本比較高的時候,應當適時的丟棄一些數據。即便是關於什么是“全量數據”,作者也是處於搖擺之中,有時指“我們需要的所有數據”,有時指“我們能收集到的所有數據”。
有些讀者也認為,就是作者在書中提出的“大數據三原則”:要全體不要抽樣,要效率不要絕對精確,要相關不要因果。前兩者很多時候也是相悖的,尤其是在我們今天很多的情況下,即歷史數據占有的不夠充分,通過大數據的收集方法和分析方法,要把所有能收集的數據都收集,再集中展開分析,這種研究方法是缺乏時效性的。
即便是該書的譯者成都科技大學的周濤教授,也在序言中對於“大數據時代相關關系比因果關系更重要”這個觀點表示不能苟同。他認為,這是一種機器學習以結果為導向的研究思路,讓我們注重“計算機工程”,而忽略了“科學”,得到了“結果”,但失去了“過程”。更讓周濤教授擔心的是,放棄了對因果的追求,就是放棄了人凌駕計算機之上的智力優勢,是人類自身的放縱和墮落。
事實上我和周濤的觀點類似,“因果性和相關性”這樣的問題在本質上可以認為是人類思維和機器思維的區別。我們不能說讓機器數據分析更加關注因果性,而應該考慮怎么加入人類文化、心智以及經驗這樣的因素,也就是考慮結果的人工干預的方式和深度,以及在未來人類和機器智能共生的時代,人類怎么能夠發揮獨特的優勢?通過兩種思維、文化的融合、互補而達到和諧共處和相互提升。
截止到目前以及在可見的將來,計算機所能夠提供給我們的結論都應該是相關性的。但是,我們人類常說“有因必有果”,是要說明一種必然的聯系,它是哲學或者佛學使用較多的概念。當然,在它們的解釋中因果也經常被描述為一種前后順延的思維關系,指的很多還是經驗的歸納或者習慣的聯想。而其中最最關鍵的,因果必須是從“人”的立場才能理解的,是“自然的人化”。
即便我們認為理所當然的因果,也有時間或者條件的限制,比如“種瓜得瓜,種豆得豆”,或者說“從9層高樓墜落會死掉的”,在這些里面也需要很多限制條件,即“外部數據”或者“概率”。所以佛教里面還有個“緣”的概念,也是指的外部條件,或者是概率。比如“種瓜得瓜”,“緣”就是還需要季節、雨露以及種子不被破壞這些因素,“種了瓜”但是種子被小鳥叼走了再不小心丟下一顆豆子,種瓜的人“得到豆”也是可能的。在這樣的條件下如果沒有足夠信息,當初種瓜的人回來只會看到得到一棵“豆”的果。更進一步,這樣的因果性強調更多是人/甚至人類整體的記憶,或者經驗,另外還有規律性等等條件。俗話“一因對應一果”,事實上“因果”的關系非常的復雜,絕對意義上的因果,也是不存在的。
葉·扎米亞京在《我們》一書中談到一則“野蠻人”和“晴雨計”的故事。說“野蠻人”發現,每當晴雨計停在“雨”宇上的時候,確實就會下雨。野蠻人正想求雨,他就把晴雨計中的水銀弄出來些,使晴雨計正好停在“雨”上。很多讀者對於《大數據時代》的批評也是基於這樣的簡單例子。比如說“公雞打鳴與太陽升起總是同時發生,這並不表示把全世界所有的公雞都殺光了后太陽就升不起來了。”,以及“有數據表明打太極拳的人和不打太極拳的人平均壽命相同。事實上呢,太極拳確實可以強身健體、延長壽命,但打太極拳的人往往是體弱多病的人,這一事實也給統計數據帶來了虛假的獨立性。”
人類渴求確定性,但是整個科學研究和社會過程都充滿了不確定性。尤其是在目前大數據研究的情況下,我們並不能據此就批評作者“過分地”強調“相關性”是不對的,這不僅是限於機器智能的內因,也是有大數據探索初期階段的外因。
首先,科學研究鼓勵試錯,我們人類的發展就是在不斷試錯,尋找相關性的過程中前進的。其次,在一場變革或者技術的初期,我們總要找到最簡單、甚至看起來很粗糙的方式發揮出它的效能。當然,這也還跟目前數據量、數據化和數據保存以及分析工具等錯綜復雜的因素有關,這也有待於大數據發展中的“緣”的積累。
在今天對大數據我們最為關鍵的,就是利用這樣的相關性關系研究,把數據里面的金子挖出來,或者利用相關性,預防或促成某些結果的發生。我們需要一定的速度,應對信息社會“數據爆炸”和諸多涌現出來的“復雜性”很高的問題,然后才是對其過程和背后原因的探詢。
正如有讀者提出來的,“大數據的強大之處就在於通過數據挖掘,能夠披露珍藏在海浪數據下的潛信息、隱信息,讓我們獲得第三只眼,越來越多擁有未卜先知的能力。大數據不提供關於世界的真相和原理,只通過知其然而不知其所以然的那些判斷。”“有時候,影響因素成千上萬,解釋的理論更加是多如牛毛,強找因果關系很難。”很多讀者也都會認同。“對要求快速反應的事件(如股票預測和流感趨勢),我們更迫切的是想知道接下來要怎么做,而並非要找因果關系。”
著名的《蒸汽朋克》雜志的座右銘是“熱愛機器,憎恨工廠”。我們都知道技術對於整個社會發展的作用,甚至是決定性的。而且,技術太快或者太慢都可能導致社會崩潰。我們不會是路德主義者,也不是純技術主義者。不是實用主義者,也不是理想主義者。在今天,我們只是探索者和開拓者。事實上,互聯網獨立評論人謝文在《大數據時代》一書的序中也說:“最重要的,人們可以在很大程度上從對於因果關系的追求中解脫出來,轉而將注意力防在相關關系的發現和使用上。”他認為,弄清而者為什么相關,可以留待學者們慢慢研究。只要發現了兩個現象之間存在的顯著相關性,就可以創造出巨大的經濟或者社會效益。
在自己的書中,舍恩伯格也提到了人類有急於尋找因果性的沖動,而有時候找到的所謂“因果”也並非真正的因果。表面理性的人常常被非理性所迷惑,滿足於想當然的解釋。在這種情況下,片面甚至錯誤的因果性還真的沒有相關性靠譜。因此,盡管他也認為因果關系是有用的,但不能作為理論基礎。最終,舍恩伯格也提出:“在大多數情況下,一旦我們完成了對大數據的相關性分析,而又不再僅僅滿足於‘是什么’時,我們就會繼續向更深層次研究因果關系,找出背后的為什么。”