機器學習理論基礎--常用算法思想要點


一、什么是機器學習?簡述機器學習的一般過程。

  機器學習是通過算法使得機器從大量歷史數據中學習規律,從而對新樣本做分類或者預測。

  一個機器學習過程主要分為三個階段:

  (1)訓練階段,訓練階段的主要工作是根據訓練數據建立模型。

  (2)測試階段,測試階段的主要工作是利用驗證集對模型評估與選擇

  (3)工作階段,工作階段的主要工作是利用建立好的模型對新的數據進行預測與分類。

二、簡述 K 折交叉驗證與留一法的基本思想及其特點。

基本思想:

  K 折交叉驗證:將數據 D 划分為 k 個大小相等的互斥子集;然后用其中的 k-1 個子集作為訓練集,余下的那個子集作為測試集;這樣就可以得到 k 組訓練集/測試集,這樣就可以進行 k 次訓練和測試,最終返回的是這 k 個測試結果的平均值。

  留一法:k 折交叉驗證的一種特例,每次取一個樣本作為測試集,其余的樣本組成的集合作為訓練集,訓練和測試的次數等於樣本的個數。

特點:

  K 折交叉驗證:其穩定性和保真性在很大程度上取決於 k 的取值。

  留一法:留一法的評估結果往往被認為是比較准確的,其最大的缺陷是當數據集較大時,模型的開銷非常大。

三、簡述什么是欠擬合和過擬合、產生的原因以及如何解決。

  欠擬合:模型在訓練集上的誤差較高。原因:模型過於簡單,沒有很好的捕捉到數據特征,不能很好的擬合數據。解決方法:模型復雜化、增加更多的特征,使輸入數據具有更強的表達能力等。

  過擬合:在訓練集上誤差低,測試集上誤差高。原因:模型把數據學習的太徹底,以至於把噪聲數據的特征也學習到了,這樣就會導致在后期測試的時候不能夠很好地識別數據,模型泛化能力太差。解決方法:降維、增加訓練數據、正則約束等。

四、簡述線性回歸與邏輯回歸的區別。

   1)任務不同:回歸模型是對連續的量進行預測;分類模型是對離散值/類別進行;

  2)輸出不同:回歸模型的輸出是一個連續的量,范圍在[-∞,+∞],分類模型的輸出是數據屬於某種類別的概率,范圍在[0,1]之間;

  3)參數估計方法不同:線性回歸中使用的是最小化平方誤差損失函數,對偏離真實值越遠的數據懲罰越嚴重;邏輯回歸使用對數似然函數進行參數估計,使用交叉熵作為損失函數,對預測錯誤的懲罰是隨着輸出的增大,逐漸逼近一個常數。

五、簡述剪枝的目的以及常用的兩種剪枝方式的基本過程。

  目的:剪枝是決策樹學習算法對付“過擬合”的主要手段,通過主動去掉一些分支來降低過擬合的風險。決策樹剪枝的基本策略有“預剪枝”和“后剪枝”。

  “預剪枝”對每個結點划分前先進行估計,若當前結點的划分不能帶來決策樹的泛化性能的提升,則停止划分,並標記為葉結點。

  “后剪枝”:先從訓練集生成一棵完整的決策樹,然后自底向上對非葉子結點進行考察,若該結點對應的子樹用葉結點能帶來決策樹泛化性能的提升,則將該子樹替換為葉結點

六、簡述 K 均值聚類算法的流程。

  假設有 m 條數據,n 個特性,則 K 均值聚類算法的流程如下:

    1)隨機選取 k 個點作為起始中心(k 行 n 列的矩陣,每個特征都有自己的中心

    2)遍歷數據集中的每一條數據,計算它與每個中心的距離;

    3)將數據分配到距離最近的中心所在的簇;

    4)使用每個簇中的數據的均值作為新的簇中心;

    5)如果簇的組成點發生變化,則跳轉執行第 2 步;否則,結束聚類。

七、簡述什么是降維以及 PCA 算法的流程。

 降維是通過某種數學變換將原始高維屬性空間轉變為一個低維子空間,保留重要性比較高的特征維度,去除冗余的特征。

 主元成分分析 PCA 使用最廣泛的數據降維算法,其一般流程如下:

    (1)樣本零均值化;

    (2)計算數據的協方差矩陣;

    (3)計算協方差矩陣的特征值與特征向量;

    (4)按照特征值,將特征向量從大到小進行排序;

    (5)選取前 k 個特征向量作為轉換矩陣;

    (6)零均值化后的數據與轉換矩陣做矩陣乘法獲得降維后的數據。

八、簡述貝葉斯網的組成,貝葉斯網中結點的三種連接方式,並分析它們的獨立性

  一個貝葉斯網 B 由結構 G 和參數Ɵ組成。

  G是一個有向無環圖,其中每個結點對應於一個屬性,若兩個屬性由直接依賴關系,則它們由一條邊連接起來。

  參數Ɵ包含了每個屬性的條件概率表,定量描述這種依賴關系。

  (1)同父結構,c已知的情況下,a,b獨立。

  (2)V型結構,c未知情況下,a,b獨立。

  (3)順序結構,c已知情況下,a,b獨立。

                               

 

               (1)                                (2)                                    (3)

九、簡述卷積神經網絡與傳統的神經網絡的區別。

  傳統的神經網絡是一種層級結構,由輸入層,隱藏層,輸出層構成,每層神經元與下層神經元完全互連,神經元之間不存在同層連接,也不存在跨層連接。

   卷積神經網絡相較於傳統神經網絡的特殊性在於權值共享和局部連接兩個方面:

  (1)局部連接:每個神經元只與上一層的部分神經元相連,只感知局部, 而不是整幅圖像.

  (2)權值共享:每一個神經元都可以看作一個濾波器,同一個神經元使用一個固定的卷積核去卷積整個圖像, 可以認為一個神經元只關注一個特征. 而不同的神經元關注多個不同的特征。

十、簡述基於核函數的非線性支持向量機的基本思想。

  核函數不顯示定義映射函數,在原始樣本空間中通過計算核函數的值來代替特征空間中的內積。基於核函數的非線性支持向量機的基本思想就是通過非線性變換將輸入空間對應到一個特征空間上,使得輸入空間中的超曲面模型對應於特征空間上的一個超平面模型也就是支持向量機,問題轉化為在特征空間中求解支持向量機。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM