機器學習基本概念和模型訓練基本問題


什么是分類問題,什么是回歸問題?以及兩者的區別

什么是二叉樹?

二叉樹很容易理解,在這里我們一般用滿二叉樹:就是非葉子節點都有2個分支的樹形數據結構

什么是決策樹?

決策樹最初是用來做決策用的,就好像下面的見不見相親對象的決策過程一樣;

如果把最后的決策結果看成是分類,那么決策樹就可以用來分類了,例如,下面的例子就是把相親對象分為見和不見兩種。

假如下面是你是否見相親對象的決策樹,如果你老媽有你給的這個決策樹,那么你老媽給你介紹一個相親對象之前,按照這個決策樹走一遍,就能預測你是否相見這個相親對象了

正負樣本,特征,訓練集(數據),驗證集(數據),預測集(數據) 

下面通過一個例子來區分這些概念

我們的數據集是一百個點,如下圖所示,是二維平面的100個點,這個就是我們總的數據集(全集),這些數據在文本中就是下面第二張圖所示的三個字段(x坐標,y坐標,label(正樣本還是負樣本))

對於每個數據點來說,都有自己的x,y坐標以及自己的類別(正還是負,0或者1);

而我們的目標是通過每個數據點的x,y坐標去確定該數據點的類別,但是我們不想每來一個數據點都自己親眼觀察去判斷,我們希望教會機器怎么去辨別每個數據點的類別。

我們需要告訴機器什么樣的數據點的類別是1,什么樣的數據點的類別是0,這就是正負樣本

我們把正負樣本放在一起,就組成了一個數據集,並從中抽取一部分或者全部,這就是訓練集

我們要教會機器通過什么屬性來區分數據點的類別,例如我們教會機器通過數據點的x,y坐標來判斷數據點的類別,那么在這里x,y坐標就是特征

教會了機器區分數據點,一般我們需要驗證機器區分的正確率,我們需要用一些已知類別的數據點,對比這些數據點原本的類別和機器辨別出來的類別,計算機器區分的正確率,這些數據點的特征和類別就是驗證集。

訓練集和驗證集都是正負樣本組成的集合的子集,兩者數據的格式是一樣的。一般來說我們可以在正負樣本集調整訓練集和驗證集的比例。

最后,我們有一批新的數據點,我們只有這些數據點的特征(x,y坐標),我們想讓機器預測這些數據點的類別,這些只有特征的數據集我們成為預測集。

驗證集在驗證的過程中也充當了預測集的角色,不過驗證集自帶類別,可以驗證預測的准確性,而預測集則是完全依賴與機器的預測。

所以,我們需要保證預測集和訓練集、驗證集是屬於同一個樣本空間的,否則,預測的結果可能不如人意。

下面我們來看下模型訓練過程中常見的問題

1:樣本選擇的問題

在這個例子中,我們是有一個全集的,我們可以看到數據整體分布,這是比較理想的;

然而很多時候,我們甚至不知道樣本空間的邊界在哪里,我們不知道我們抽取的正負樣本是否能代表整個樣本空間?

2:正負樣本比例問題

在這個例子中,正負樣本比例1:1,然而,在實際數據中,我們甚至不知道真實的樣本空間里面正負樣本的比例;

而正負樣本的比例有時候會對模型的評價產生影響

3:模型評價的問題

我們一般通過驗證集來檢驗模型的好壞,然而模型是過擬合還是欠擬合我們是很難衡量的,而過擬合還是欠擬合一般也是通過驗證結果來判斷,但是訓練集和驗證集的選擇有一定的隨機性,

所以,模型評價也是一個難題。

而且,對於不同的集合,對模型的要求也是不一樣的,是盡量不要預測錯,還是盡量找回更多,因實際情況而定。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM