注:本文中涉及到的公式一律省略(公式不好敲出來),若想了解公式的具體實現,請參考原著。 1、基本概念 (1)聚類的思想: 將數據集划分為若干個不想交的子集(稱為一個簇cluste ...
損失函數和風險函數 損失函數:常見的有 損失函數 絕對損失函數 平方損失函數 對數損失函數 風險函數:損失函數的期望 經驗風險:模型在數據集T上的平均損失 根據大數定律,當N趨向於 時,經驗風險趨向於風險函數 模型評估方法 訓練誤差與測試誤差 訓練誤差:關於訓練集的平均損失 測試誤差:定義模型關於測試集的平均損失。其反映了學習方法對未知測試數據集的預測能力 泛化誤差:學到的模型對未知數據的預測能 ...
2017-10-20 22:33 0 2174 推薦指數:
注:本文中涉及到的公式一律省略(公式不好敲出來),若想了解公式的具體實現,請參考原著。 1、基本概念 (1)聚類的思想: 將數據集划分為若干個不想交的子集(稱為一個簇cluste ...
半監督學習:綜合利用有類標的數據和沒有類標的數據,來生成合適的分類函數。它是一類可以自動地利用未標記的數據來提升學習性能的算法 1、生成式半監督學習 優點:方法簡單,容易實現。通常在有標記數據極少時,生成式半監督學習方法比其他方法性能更好 缺點:假設的生成式模型必須與真實 ...
數據預處理的常用流程: 1)去除唯一屬性 2)處理缺失值 3)屬性編碼 4)數據標准化、正則化 5)特征選擇 6)主成分分析 1、去除唯一屬性 如id屬性,是唯一屬性,直接去除就好 2、處理缺失值 (1)直接使用含有缺失值 ...
注:因為公式敲起來太麻煩,因此本文中的公式沒有呈現出來,想要知道具體的計算公式,請參考原書中內容 降維就是指采用某種映射方法,將原高維空間中的數據點映射到低維度的空間中 1、主成分分 ...
一 矩陣求導 復雜矩陣問題求導方法:可以從小到大,從scalar到vector再到matrix。 x is a column vector, A is a matrix d(A&am ...
一、模型驗證 進行模型驗證的一個重要目的是要選出一個最合適的模型,對於監督學習而言,我們希望模型對於未知數據的泛化能力強,所以就需要模型驗證這一過程來體現不同的模型對於未知數據的表現效果。 這里我們將訓練集再分成訓練集與驗證集兩部分,大概比例就是3:1吧。一般來講不同的訓練集、驗證集 ...
6. 學習模型的評估與選擇 Content 6. 學習模型的評估與選擇 6.1 如何調試學習算法 6.2 評估假設函數(Evaluating a hypothesis) 6.3 模型選擇與訓練/驗證/測試集(Model selection ...
三、評估方法 1、留出法(hold-out) 直接將數據集D划分為兩個互斥的集合,其中一個集合作為訓練集S,另一個作為測試集T,即D = S ∪ T,S ∩ T = ø 。在 S 上訓練出模型后,用 T 來評估其測試誤差,作為對泛化誤差的估計。 舉例: 以二分類任務為例 ...