機器學習:需要從已知的數據 學習出需要的模型
在線算法:需要及時處理收集的數據,並給出預測或建議結果,並更新模型
通用的在線學習算法步驟如下:
1. 收集和學習現有的數據
2. 依據模型或規則,做出決策,給出結果
3. 根據真實的結果,來訓練和學習規則或模型
常用的在線學習算法:
Perception: 感知器
PA: passive perception
PA-I
PA-II
Voted Perception
confidence-weighted linear linear classification: 基於置信度加權的線性分類器
Weight Majority algorithm
AROW:adaptive regularization of weighted vector 加權向量的自適應正則化
"NHERD":Normal Herd 正態
這里收集了一些算法偽代碼,代碼然后配上語言描述,就清晰多了。
感知器Perception:
線性分類器,是一個利用超平面來進行二分類的分類器,每次利用新的數據實例,預測,比對,更新,來調整超平面的位置。
相對於SVM,感知器不要每類數據與分類面的間隔最大化。
平均感知器Average Perception:
線性分類器,其學習的過程,與Perception感知器的基本相同,只不過,它將所有的訓練過程中的權值都保留下來,然后,求均值。
優點:克服由於學習速率過大,所引起的訓練過程中出現的震盪現象。即超平面圍着一個中心,忽左忽右之類...
Passive Aggressive Perception:
修正權值時,增加了一個參數Tt,預測正確時,不需要調整權值,預測錯誤時,主動調整權值。並可以加入松弛變量的概念,形成其算法的變種。
優點:能減少錯誤分類的數目,而且適用於不可分的噪聲情況。
Tt 有三種計算方法:
a. Tt = lt / (||Xt||^2)
b. Tt = min{C, lt / ||Xt||^2}
c. Tt = lt / (||Xt||^2 + 1/(2C))
分別對應PA, PA-I, PA-II 算法,三種類型。
Voted Perception:
存儲和使用所有的錯誤的預測向量。
優點:實現對高維數據的分類,克服訓練過程中的震盪,訓練時間比SVM要好。
缺點:不能保證收斂
Confidence Weight:
線性分類器
每個學習參數都有個信任度(概率),信任度小的參數更應該學習,所以會得到更頻繁的修改機會。信任度,用參數向量的高斯分布表示。
權值w符合高斯分布N(u, 離差陣),而 由w*x的結果,可以預測其分類的結果。
並對高斯分布(的參數)進行更新。
這種方法能提供分類的准確性,並加快學習速度。其理論依據在在於算法正確的預測概率不小於高斯分布的一個值。
AROW: adaptive regularition of weighted vector
具有的屬性:大間隔訓練large margin training,置信度權值confidence weight,處理不可分數據(噪聲)non-separable
相對於SOP(second of perception),PA, CW, 在噪聲情況下,其效果會更好.
Normal herding:
線性分類器
NHerd算法在計算全協方差陣和對角協方差陣時,比AROW更加的積極。
Weight Majority:
每個維度都可以作為一個分類器,進行預測;然后,依據權值,綜合所有結果,給出一個最終的預測。
依據最終的預測和實際測量結果,調整各個維度的權值,即更新模型。
易於實施,錯誤界比較小,可推導。
Voted Perception:
存儲和使用所有的錯誤的預測向量。
優點:實現對高維數據的分類,克服訓練過程中的震盪,訓練時間比SVM要好。
缺點:不能保證收斂