分類 ,這是有很多非常成熟的算法,非常直觀,按照一個分類屬性,把樣本分為不同的類別。
聚類 ,聚類與分類的差別在於,分類分析有一個分類屬性作為輸出,比如“好”、“壞”之類,但聚類沒有。聚類分析探索各個樣本間的內在關系,並按一定標准把它們“聚”在一塊。按照有沒有相應的輸出分類屬性,一個術語是,分類是有指導的學習,而聚類是無指導的學習;
關聯分析,就是著名的購物籃分析,例子就是沃爾瑪的啤酒和尿布,探索數據中各個屬性之間的關系;
預測,也很直觀了,有很多回歸技術。
分別論述了。分類的算法有:
決策樹,按照一定的標准(比如說信息論中的“熵”),把各個屬性划到不同的樹形節點中去。在股市數據中,比如,有好的企業和不好的企業(ST),這個算法提供類似“如果市盈率怎么樣,則該企業怎么樣怎么樣”的結論,當然,實際分析中,結論的層次會很多。決策樹的成功算法有C4.5、CHAID(這個就是馮老師說的威力無比的卡方自動搜索技術,昨天梁老師提到的最好的決策樹算法就是它)、CART等等。C4.5有現成的代碼;
人工神經網絡,仿照人類神經元刺激-反應的學習模式,人工神經網絡被一個環境(輸入輸出的組合)所激勵,它的各種參數(那些權值和偏置量)進行調整作為響應。一般認為神經網絡經常能發掘出數據中的非線性關系,而且抗干擾性較強。人工神經網絡包括三種基本的模型,一是前饋網絡,如多層感知機(我們學過相應的反向傳播法BP),這里網絡的輸出直接根據網絡的輸入計算而來,不涉及到反饋;二是競爭網絡,以Hamming網絡為代表,它包括一個反饋層,並試圖判定哪個標准向量最接近輸入向量;三是以Hopfield網絡為代表的遞歸網絡,它利用輸入向量對網絡中的神經元進行初始化,然后不斷迭代直至收斂;這里前饋網絡的代碼很好找到;
支持向量機(SVM,Support Vector Machine)源自統計學習理論,有着堅實的理論基礎,它用訓練實例的一個子集(支持向量)作為決策邊界,然后建立一個線性判別函數來將各個類別分開。它相對與神經網絡的一個優點是能發現目標函數的全局最優點,而采用貪心算法搜索假設空間的神經網絡模型一般只能獲得局部最有解;
最大熵法(MEM,Maximun Entropy Method),是基於信息論的一種方法,它用“熵”來表示信息的增益,在自然語言處理領域成就斐然。最大熵方法認為,當我們需要對一個隨機事件的概率分布進行預測時,我們的預測應當滿足全部已知的條件,而對未知的情況不要做任何主觀假設。在這種情況下,概率分布最均勻,預測的風險最小。因為這時概率分布的信息熵最大,所以稱之為“最大熵法”。最大熵法在數學形式上很漂亮,但是實現起來比較復雜,但把它運用於金融領域的誘惑也比較大,比如說決定股票漲落的因素可能有幾十甚至上百種,而最大熵方法恰恰能找到一個同時滿足成千上萬種不同條件的模型。
聚類的算法以K-均值為代表,它先是選擇K個初始的質心,接着按就近原則將其他觀測值向它凝聚,這樣指派到每一個質心的點集稱為一個簇。然后根據指派到簇的點,更新每個簇的質心,這樣重復指派和更新,直到質心不再發生變化(即收斂)。這里“最近”的概念用的是歐幾里德距離。在我們的股市數據中,如果我們不再事先指定哪些股票是好是壞(即沒有輸出變量),通過聚類分析也能把它們分類。
關聯分析用來發現隱藏在大型數據集中令人感興趣的聯系,比如尿布和啤酒之間的關聯,一種叫Apriori的算法可以實現,它根據變量及其賦值對整個數據集的覆蓋程度來建立起兩個或幾個變量之間的聯系。這個算法用在我們的股市數據中,可以幫我們找到幾只單股之間的關聯,這種關聯可能沒有道理。