機器學習--分類問題
分類問題是監督學習的一個核心問題,它從數據中學習一個分類決策函數或分類模 型(分類器(classifier)),對新的輸入進行輸出預測,輸出變量取有限個離散值。

決策樹
決策樹(decision tree)是一個樹結構,每個非葉節點表示一個特征屬性,每個分支
邊代表這個特征屬性在某個值域上的輸出,每個葉節點存放一個類別。
決策過程:從根節點開始,測試待分類項中相應的特征屬性,並按照其值選擇輸出分支,
直到到達葉子節點,將葉子節點存放的類別作為決策結果。
給定訓練數據,如何構建決策樹呢?
1. 特征選擇:選取對訓練數據具有分類能力的特征。
2. 決策樹生成:在決策樹各個點上按照一定方法選擇特征,遞歸構建決策樹。
3. 決策樹剪枝:在已生成的樹上減掉一些子樹或者葉節點,從而簡化分類樹模型。
示例:假如我買了一個西瓜,它的特點是紋理清晰、根
蒂硬挺,如何根據右側決策樹判斷是好瓜還是壞瓜?
核心算法
ID3算法,C4.5算法及CART算法

決策樹特征選擇
決策樹構建過程中的特征選擇是非常重要的一步。特征選擇是決定用哪個特征來划分 特征空間,特征選擇是要選出對訓練數據集具有分類能力的特征,這樣可以提高決策樹的 學習效率。
信息熵:表示隨機變量的不確定性,熵越大不確定性越大。
信息增益:信息增益 = 信息熵(前) - 信息熵(后)
信息增益比: 信息增益比 = 懲罰參數 * 信息增益。特征個數較多時,懲罰參數較小;特征個數較少時,懲罰參數較大。
基尼指數:表示集合的不確定性,基尼系數越大,表示不平等程度越高。

在生成樹的過程中,如果沒有剪枝(pruning)操作,就會生成一個隊訓練集完全 擬合的決策樹,但這是對測試集非常不友好的,泛化能力不行。因此,需要減掉一些枝 葉,使得模型泛化能力更強。
理想的決策樹有三種:葉子節點數最少、 葉子節點深度最小、葉子節點數最少且 葉子節點深度最小。
預剪枝 通過提前停止樹的構建而對樹剪枝,一旦停止,節 點就是葉子,該葉子持有子集中最頻繁的類。 定義一個高度,當決策樹達到該高度時就停止生長 達到某個節點的實例具有相同的特征向量 定義一個閾值(實例個數、系統性能增益等) 后剪枝方法 首先構造完整的決策樹,然后對那些置信不夠的結點子樹用葉子結點來代替,該葉子的類 標號用該結點子樹中最頻繁的類標記。相比於預 剪枝,這種方法更常用,因為在預剪枝方法中精 確地估計何時停止樹增長很困難。
貝葉斯分類
貝葉斯分類是基於貝葉斯定理和屬性特征條件獨立性的分類方法。 貝葉斯流派的核心:Probability theory is nothing but common sense reduced to calculation. 概率論只不過是把常識用數學公式表達了出來。——拉普拉斯
案例:假設春季感冒流行,你同桌打了一個噴嚏,那你
同桌感冒了的概率是多少?
1. 計算先驗概率:你同桌沒有任何症狀的情況下可能得感冒 的概率是多少?
2. 為每個屬性計算條件概率:如果你同桌感冒了, 那么 他會打噴嚏的概率是多少, 如果他沒感冒, 出現打噴嚏症狀的概 率有多少?
3. 計算后驗概率:根據1 和2求解最終問題,這才是擁有貝 葉斯思想的你該做的分析。
貝葉斯理論

貝葉斯分類
舉個栗子:一對男女朋友,男生向女生求婚,男生的四個特點分別是不帥,性格不好,身高矮,
不上進,請你判斷一下女生是嫁還是不嫁?

貝葉斯分類

優點:
(1) 算法邏輯簡單,易於實現
(2)分類過程中時空開銷小
缺點: 理論上,朴素貝葉斯模型與其他分類方法相比具有最小的誤差率。但是實際上並非總 是如此,這是因為朴素貝葉斯模型假設屬性之間相互獨立,這個假設在實際應用中往往 是不成立的,在屬性個數比較多或者屬性之間相關性較大時,分類效果不好。
SVM(支持向量機)
在很久以前的情人節,大俠要去救他的愛人,但魔鬼和他玩了一個游戲。

再之后,人們把這些球叫做 「data」,把棍子叫做 「classifier」, 最大間隙trick 叫做 「optimization」, 拍桌子叫做「kernelling」, 那張紙叫做「hyperplane」。
支持向量機(Support Vector Machine ) 是一種有監督學習方法,它嘗試尋找一個最優決 策邊界,使距離兩個類別最近的樣本最遠。

。
邏輯回歸

最大熵模型

邏輯回歸與最大熵模型

集成學習
集成學習通過將多個弱分類器集成在一起,使它們共同完成學習任務,構建一個強分類器。潛在哲 學思想是“三個臭皮匠賽過諸葛亮”。
理論基礎 兩類集成方法 Bagging(bootstrap aggregating) Boosting(提升方法) 強可學習:在PAC學習框架中,一個概念,如果存在 存在一個多項式的學習算法能夠學習它,並且正確率 很高,那么久稱這個概念是強可學習的。 弱可學習:如果存在一個多項式的學習算法能夠學習 它,學習的正確率金幣隨機猜測略好,那么就稱這個 概念是弱可學習的。 Schapire證明強可學習與弱可學習是等價的,也 就是說,在PAC學習框架下,一個概念強可學習的充 分必要條件是這個概念若可學習的。