一、機器學習是什么
機器學習是計算機基於數據構建概率統計模型
並運用模型對數據進行預測與分析
的學科。
機器學習是專門研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的性能。
機器學習是人工智能
的核心,從大量現象中提取反復出現的規律與模式,是使計算機具有智能的根本途徑。
二、常見概念
屬性
被描述的性質叫屬性,不同屬性值有序排列得到的向量就是數據,也叫實例
例如:人的屬性有膚色、眼睛大小、鼻子長短、顴骨高度
,屬性值可以描述為淺、大、短、低
特征空間
每個屬性都代表了一個不同的維度,這些屬性共同構成了特征空間
特征向量
每一組屬性值的集合都是這個空間中的一個點,因而每個屬性實例都可以視為特征空間中的一個向量,叫特征向量。
誤差
學習器的預測輸出與樣本真實輸出之間的差異,是機器學習的重要指標之一
- 訓練誤差
學習器在訓練數據集上的誤差,也叫經驗誤差 - 測試誤差
學習器在新樣本上的誤差,也叫泛化誤差。
反映了學習器對未知的測試數據集的預測能力,是機器學習中非常重要的概念
擬合
觀測結果的數字統計與相應數值組的吻合
- 過擬合
預測規律與訓練數據收集過於符合。
例如,剛好看到有肌肉的程序員,以為有肌肉的都是程序員,把訓練數據的特征當做整體的特征。
一般是學習時模型包含的參數過多,導致訓練誤差較低但測試誤差較高 - 欠擬合
模型不能在訓練集上獲得足夠低的誤差。
例如,把黒猩猩的圖像認成了人
測試誤差與模型復雜度之間呈現的是拋物線的關系。
- 當模型復雜度較低時,測試誤差較高
- 隨着模型復雜度的增加,測試誤差將逐漸下降並達到最小值
- 當模型復雜度繼續上升時,測試誤差會隨之增加,對擬合的發生
模型
機器學習模型,本質上是一個函數,作用是從一個一個樣本\(x\)到樣本的標記值\(Y\)的映射,即\(Y=f(x)\)
模型需要在給定樣本集合\(\{{x_i|i=1,...,n}\}\)以及對應標簽\(<Y_1,Y_2,...,Y_n>\)情況下,用假設已知的函數形式\(Y=f(x_i)\)盡可能擬合客觀存在的映射函數,並保證在未知分布上具有盡可能相近的擬合能力
如何得到最優模型?
如果將訓練集分成10個子集\(D_{1-10}\),交叉驗證需要對每個模型進行10輪訓練
- 第1輪使用\(D_{2-10}\)這9個子集,訓練出的學習器在\(D_1\)進行測試
- 第2輪使用\(D_1\)和\(D_{3-10}\)這9個子集,訓練出的學習器在\(D_2\) 上測試
- ...
直到10個模型測試完成,不同模型中平均測試誤差最小的模型就是最優模型
調參
對算法參數進行設定,是機器學習中重要的工程問題,在神經網絡與深度學習中的體現尤為明顯。
調參過程中,主要問題就是性能和效率之間的折中。
正則化
為了解決過擬合
問題,通常有兩種辦法,第一是減少樣本的特征(即維度),第二就是我們這里要說的“正則化”(又稱為“懲罰”,penalty)。
正則化是一種為了減小測試誤差的行為(有時候會增加訓練誤差)。
我們在構造模型時,最終目的是讓模型在面對新數據時,能有很好的表現。
如果使用比較復雜的模型,比如神經網絡去擬合數據時,很空間出現過擬合現象(訓練集表現很好,測試集表現較差),這時,我們就需要使用正則化,降低模型復雜度。
預測類型
- 分類問題
輸出變量有有限個離散變量,個數為2時叫二分類問題 - 回歸問題
輸入和輸出變量均為連續變量 - 標注問題
輸入和輸出變量均為變量序列
三、算法分類
傳統機器學習算法主要包括以下五類:
回歸
建立一個回歸方程來預測目標值,用於連續型分布預測
分類
給定大量帶標簽的數據,計算出未知標簽樣本的標簽取值
聚類
將不帶標簽的數據根據距離聚集成不同的簇,每一簇數據有共同的特征
關聯分析
計算出數據之間的頻繁項集合
降維
原高維空間中的數據點映射到低維度的空間中
四、學習方式(監督與無監督)
-
監督學習
基於已知類別的訓練數據進行學習 -
無監督學習
基於未知類別的數據進行學習 -
半監督學習
同時使用已知類別和未知類型的訓練數據進行學習
受學習方式的影響,效果較好的算法執行的都是監督學習的任務。
監督學習的兩種方法
監督學習的任務就是在假設空間中根據特定的誤差准則找到最優的模型,可以分成兩類方法
- 生成方法
根據輸入和輸出數據之間的聯合概率分布確定條件概率分布\(P(Y|X)\),表示了輸入\(X\)與輸出\(Y\)之間的生成關系。
典型算法是朴素貝葉斯
- 判別方法
直接學習條件概率分布\(P(Y|X)\)或決策函數\(f(X)\),這種方法表示了根據輸入\(X\)得出輸出\(Y\)的預測方法。
典型的算法是邏輯回歸
即使是AlphaGo Zero,訓練過程也要受圍棋勝負規則 的限制,因而也離不開監督學習的范疇。
所以,監督學習是目前機器學習的主流任務。在圖像識別領域,高識別訓練場的背后是大量被精細標記的圖像樣本,而對百萬的數字圖像進行標記需要有耗費大量人力,這就是一種監督學習。
生成方法具有更快的收斂速度和更廣的應用范圍,判別方法具有更高的准確率和更簡單的使用方式