大數據在彩票預測和解決社會問題的用處


大數據在彩票預測和解決社會問題的用處

 

《最簡單的科學決策法》書中提到有很多基於統計的判斷決策,使用簡單的幾個指標就能做得很好,再上更多的數據也不能讓判斷更准確。 作者賽斯也舉了個例子。一個燒紅的爐子,你只要觸碰一下就知道這東西危險不能碰;可是要想知道喝咖啡能不能導致頭痛,你大概要喝上幾千杯才能看出效果來。

 

從上面的結果看:明顯的效應只要小數據就夠了,不明顯的效應才需要大數據。 但必須用大數據才能得出的結論,並不是不重要的結論。

 

彩票研究的核心算法本身只需要幾個指標參數調整好就可以得出很好的預測結果,但要做到長期有效達到盈利的目標就需要大數據作為驗證和回歸測試,這樣才能確保算法的參數不止是在某個范圍內有效而是能夠達到長期有效的平衡點。

網上很多各種公式算法都聲稱自己99%命中而且給出了幾十期的驗證數據,在這個數據范圍內驗證確實非常有效非常令人心動,但往往一放大到500期,一千期,一萬期,十萬期歷史開獎去驗證就失效了,就跟理論概率差不多,甚至比理論概率更低了。

大數定律是概率預測不能繞過的,算法只能調整參數取一個接近理論概率的平衡值,跳過一些低於平均概率的范圍投注。

 

很多遺漏值在一千期內看已經達到很大了,比如遺漏了50期,直覺判斷認為這個就是最大值了就是極值了,一旦達到45期開始投注應該很安全了可以加倍投注了,但往往一放大十萬期的歷史數據一驗證超過50期遺漏的一大把,甚至超過100期遺漏的還有不少。

當你的維度太多而數據量太少的時候,你就容易發現這種假的強相關性。 實際上,如果你再用一組新的數據測試,你會發現那個變量根本不好使。

這個假相關性,會給人一個可預測的錯覺。就連專業研究人員都可能會犯這樣的錯誤。這就是所謂的:維度的詛咒(the Curse of Dimensions)。

所以這也體現了“大”數據的必要性。如果你的數據量不夠大,千萬不要貿然聲稱自己發現了什么隱藏的規律。

大數據,不是萬能的。但是人很容易為數據痴迷。

 

目前流行的深度學習算法也是通過輸入大量數據進行訓練才使得算法得出的結果越來越准確。

所以說彩票預測算法是核心,大數據是保證,通過大數據分析可以發現一些反直覺的結論,讓投注的時候能夠更加理性,更加不會盲目相信小部分歷史數據得出的概率。

 

-------------

大數據突飛猛進,但還有一些傳統學者沒有適應這個工具。如果你有志於用數據分析解決真正的社會問題,這個領域現在非常值得進入。

現在大數據工作的工資也很高。一般數據科學家的平均年薪是9萬多美元(現在1美金=6.8元人民幣),資深數據科學家是13萬美元,Google 的數據科學家年薪更是超過15萬美元。

大數據,現在是稀缺技能。大數據不是萬能的,但是是一個強大的工具。

就算你不掌握具體的數據分析技術,也應該了解這個思維方式。

當你討論任何社會問題的時候,千萬不要信口開河,最好能找到數據支持,要知道很多真相是反直覺的。

 

------------

賽斯在《人人說謊:大數據、新數據以及關於真實的你我,互聯網能告訴我們什么》這本書中列舉了大數據的三個關鍵用處。

1.從罕見的案例中發現規律

2.量化一個效應的大小

3.發現反直覺的結論

 

該考慮到的問題,大數據的研究者們可能也都已經考慮到了,那我們就在一定程度上可以相信他們的結論。

當然一切研究方法都是有漏洞的,任何結論都只能作為參考。

你察覺不到的規律,大數據能察覺到;你察覺到了的效應,大數據能評估這個效應的大小。

更重要的是,大數據能得出一些跟我們的直覺相反,但卻是更可信的結論。 

 

假設現在你有兩個潛在的結婚對象。第一個人跟你有很多共同的朋友,第二個人則是一個圈外人,你不熟悉他/她的朋友,他/她也不熟悉你的朋友。那么請問,如果你想要的是長期的關系,你應該跟誰結婚呢?

 

直覺來說,也許應該選第一個人。這個人跟你的朋友們相處融洽,那就說明你們有很多共同點,想必結婚之后你們兩個也會相處得很好。對吧?

不對。我們在 Facebook 上的交友狀況,和單身/已婚/有男女朋友的狀況都是公開的,研究者就用 Facebook 的數據做了一個分析。

他們鎖定那些是夫妻或者男女朋友關系的人,看看他們的朋友圈有多少重合之處。結果發現,朋友圈重合度越高的夫妻或者男女朋友,越有可能在一定時間之后宣布再次單身。

也就是說,最持久的關系,往往是雙方各自有不同的朋友圈。 那這到底是為什么呢?

大數據不能告訴我們原因 —— 這是一個“反直覺”的結論。

也許你身邊有一對夫婦,感情良好,他們有很多共同的朋友,那你就應該知道,這只是特例。

人很容易被身邊的特例影響判斷,而大數據不會犯這樣的誤。

 

--------

賽斯自己也有一個比較反直覺的發現。

我們知道很多 NBA 球星是出生於貧困家庭,有很多還是來自單親家庭,那你說,到底是單親貧困家庭容易出球星呢,還是雙親中產家庭容易出球星?

這個問題非常不好回答。也許單親家庭的孩子從小自立,拼搏能力更強;也許單親家庭的孩子從小缺乏管教。

真正的麻煩在於,根本就不存在每個 NBA 球員小時候的家庭狀況數據。賽斯想了各種辦法。他考察了每個球員都是在哪里出生的,然后看看這些出生地的貧富程度如何。

他盡可能地追溯每個球員的家族歷史,他甚至還通過球員的名字判斷他是不是來自單親家庭。原來還有一個規律,單親媽媽總愛給孩子起一個比較怪的名字,而雙親家庭給孩子起的名就比較正常。 

作為一個數據科學家,他不僅僅是用什么數學工具從現有的數據里發掘事實,他還能主動尋找各種相關的數據,他知道去哪找,而且還真找到了。就這樣賽斯把幾個數據庫連在一起,才算是發現了答案。 

 

答案是:來自父母雙全的中產家庭的球員更容易取得好成績。這里面有兩個主要原因。

第一是這樣家庭的孩子從小營養好,所以長得更高。

第二是這樣的孩子社交能力更強。這兩個素質對打籃球來說太重要了。身高的優勢就不用說了。

有些 NBA 球星從小養成的思維模式就不行,有點錢就忘乎所以,實在不利於事業成功。

所以,大數據確實能告訴我們一些我們本來不知道的東西。 

 

本人公眾號原文:大數據在彩票預測和解決社會問題的用處
https://mp.weixin.qq.com/s/T2E5bwTTga5-xUC8EmF44A

------------------------------

 本人微信公眾帳號: 心禪道(xinchandao)

 

本人微信公眾帳號:雙色球預測合買(ssqyuce)


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM