1、使用機器學習來解決問題,我們用數學語言來描述它,然后建立一個模型,例如回歸模型或者分類模型等來描述這個問題;
2、通過最小化誤差、最大似然、最大后驗概率等等建立模型的代價函數,轉化為最優化問題。找到最優化問題的解,也就是能擬合我們的數據的最好的模型參數;
3、求解這個代價函數,找到最優解。
求最優解方法:
1、如果優化函數存在解析解。例如我們求最值一般是對優化函數求導,找到導數為0的點。如果代價函數能簡單求導,並且求導后為0的式子存在解析解,那么我們就可以直接得到最優的參數。
2、如果式子很難求導,例如函數里面存在隱含的變量或者變量相互間存在耦合,互相依賴的情況。或者求導后式子得不到解釋解,或者未知參數的個數大於方程組的個數等。這時候使用迭代算法來一步一步找到最優解。
特別的若優化函數是凸函數,那么就存在全局最優解,如果函數是非凸的,那么就會有很多局部最優的解,因此凸優化重要性不言而喻。人們總希望在萬千事物中找到最優的那個他。
1.什么是機器學習
計算機自動從數據中發現規律,並應用於解決新問題
給定數據(X1,Y1), (X2,Y2), … ,(Xn,Yn),機器自動學習X和Y之間的關系,從而對新的Xi,能夠預測Yi。如由身高預測性別,身高預測體重。
機器學習是一門人工智能的科學,該領域的主要研究對象是人工智能,特別是如何在經驗學習中改善具體算法的性能。
2.基於規則
3.基於模型- 機器學習
4.實例-房價預測
5.基本概念
我們先明確機器學習中一些概念和常用的符號:
房屋銷售記錄表 訓練集(training set)或者訓練數據(training data), 一般稱為x
房屋銷售價錢 輸出數據,一般稱為y
擬合的函數 (模型、假設),一般寫做 y = h(x)
訓練數據的條數(training set) 一條訓練數據是由一對輸入和輸出數據組成的
輸入數據的維度(特征的個數features) 房屋的售價,數據表中的列
6.機器學習過程
基本概念:
7.機器學習主要問題
分類:LR,SVM,NB,KNN,決策樹
LR(logistic regression),SVM(),NB(naive bayes ),KNN(k-nearest neighbor),決策樹
聚類:k均值(k-means),層次,GMM(高斯混合模型)
回歸:線性回歸,邏輯回歸
關聯規則:Apriori,FPgrowth
8.監督與非監督學習
監督學習:
給定數據(X1,Y1),(X2,Y2),…,(Xn,Yn)
對新的Xi,預測其Yi
分類,回歸
非監督學習:
給定數據X1,X2,…,Xn
求Yi=f(Xi),P(Xi,Yi)
聚類,降維
9.機器學習三要素
模型---規律
策略---模型好不好
10.經驗風險
11.結構風險
12.算法
13.正則化
正則化(regularization)在線性代數理論中,不適定問題通常是由一組線性代數方程定義的,而且這組方程組通常來源於有着很大的條件數的不適定反問題
14.交叉驗證
1. 簡單交叉驗證
簡單交叉驗證的方法是這樣的,隨機從最初的樣本中選擇部分,形成驗證數據,而剩下的當作訓練數據。一般來說,少於三分之一的數據被選作驗證數據。
2. K折交叉驗證
10折交叉驗證是把樣本數據分成10份,輪流將其中9份做訓練數據,將剩下的1份當測試數據,10次結果的均值作為對算法精度的估計,通常情況下為了提高精度,還需要做多次10折交叉驗證。
更進一步,還有K折交叉驗證,10折交叉驗證是它的特殊情況。K折交叉驗證就是把樣本分為K份,其中K-1份用來做訓練建立模型,留剩下的一份來驗證,交叉驗證重復K次,每個子樣本驗證一次。
3. 留一驗證
留一驗證只使用樣本數據中的一項當作驗證數據,而剩下的全作為訓練數據,一直重復,直到所有的樣本都作驗證數據一次。可以看出留一驗證實際上就是K折交叉驗證,只不過這里的K有點特殊,K為樣本數據個數。
15.泛化能力(預測能力)
泛化能力指由學習方法得到的模型對未知數據的預測能力。
概括地說,所謂泛化能力(generalization ability)是指機器學習算法對新鮮樣本的適應能力。學習的目的是學到隱含在數據對背后的規律,對具有同一規律的學習集以外的數據,經過訓練的算法也能給出合適的輸出,該能力稱為泛化能力。
16.模型評估與模型選擇
當損失函數給定時,基於損失函數的模型的訓練誤差和模型的測試誤差就自然成為學習方法評估的標准。
通常,測試誤差越小的方法具有更好的預測能力,泛化能力強。
17.過擬合與模型選擇
18.總結