最近讀了洪永淼教授和汪壽陽教授的論文--《大數據、機器學習與統計學:挑戰與機遇》
經濟學中比較重要的是兩個隨機變量之間的因果關系,數據基本又三種類型:時間序列數據、截面數據和面板數據,一般數據量都不會很大,在經典線性模型中,一般假定模型是線性回歸模型,是參數模型中的一種。
隨着數字經濟時代的來臨,產生了越來越多的數據,這些海量的數據背后透露着經濟行為背后的規律,大數據是否可以仍然用傳統的經濟學研究方法?在洪老師的文章中給出了回答。
主要結論:
- 大數據並沒有改變統計學通過隨機抽樣推斷總體分布特征的基本思想。
- 大數據提供了很多傳統數據中所沒有的信息,大大擴展了統計學的研究邊界,例如對於經濟不確定性指數、輿情分析等。
- 由於海量數據,大數據預計將改變基於統計學顯著性來選擇模型的習慣,研究范式將參數估計不確定性轉換為模型選擇不確定性,這同時也對統計推斷中的數據生成過程的平穩性和同質性以及統計模型唯一性的假設提出了新的挑戰。
- 機器學習和統計推斷有很多共同之處,機器學習也存在同時也特別重視樣本偏差問題。
- 機器學習不完全等同學統計學中的非參數研究方法。
- 機器學習與統計學的有機結合可以提供一些新的研究方向,包括變量降維、因果識別等方向
大數據的形式種類繁多,可以分為結構化數據和非結構化數據。對於結構化數據,比較常見的是圖片的像素矩陣,對於非結構化數據,生活中的人際關系網就是其中一個例子,屬於比較火的圖神經網絡范疇。這些數據是否可以用到經濟研究范式中那?
什么是統計推斷的的基本思想?假設所研究的系統服從某一概率法則的隨機過程,現實世界中的觀測數據是依據這一概率法則產生的,這個隨機過程稱之為數據生成過程(DGP)。我覺得與機器學習中的生成模型有些相似,這里的DGP是True Model,一般這個模型我們是無法知道的,只能通過樣本的數據去估計總體的規律,基於這個思想,我們引入許多標准衡量模型的好壞。
在常用的標准統計模型中,包括經典線性回歸、Probit模型、久期分析等模型,這些模型直接或者間接地用到了至少一下6個假設:
- 隨機性,DGP是一個隨機過程。
- 模型唯一性,DGP的概率法則由唯一的數學概率法則確定。
- 模型正確設定,概率模型設定是正確的,即存在唯一的未知參數值,使得概率模型與DGP概率法則相吻合。
- 抽樣推斷總體,使用包含DGP信息的樣本數據來推斷總體分布特征,特別是概率法則。
- 代表性樣本,描述觀測數據的隨機樣本不存在樣本選擇偏差,而觀測數據的樣本容量通常不會太大。
- 統計顯著性,基於統計推斷,在預設顯著性水平(5%)上判斷解釋變量或者預測變量是否顯著,並據此提供解釋依據。
機器學習又是什么那?從本質上說機器學習是數學優化問題和算法優化問題。簡單來說機器學習是一種大數據分析方法,通過學習訓練數據的系統特征和統計關系而對未知的樣本進行預測,但機器學習不假設DGP的結構和概率分布滿足特定的函數形式,通常是是給定目標函數,可以不給定參數方程的形式,然后不斷訓練學習參數,讓Loss Fuction達到最小,這種事我們所說的非參數模型,比如 隨機森林,KNN,決策樹等模型。
大數據分析主要是做什么的?大數據分析的主要目的是從傳統數據中發現不易察覺的模式、趨勢、異常、因果關系等有價值的信息。基於大數據建模,得到的往往是依靠相關性,經濟學比較重視變量之間的因果關系。大數據雖然不能直接解釋因果關系,但其可以通過准確估計虛擬事實來測度因果關系。
大數據雖然逐漸在改變基於統計顯著性的統計建模和統計推斷的基本方法,但大數據並沒有改變聽過隨機推斷總體特征的統計思想。抽樣推斷,充分性原則,因果推斷、樣本外預測等基本統計思想在大數據分析中仍然基本適用。
待續!