什么是分類問題,什么是回歸問題?以及兩者的區別
什么是二叉樹?
二叉樹很容易理解,在這里我們一般用滿二叉樹:就是非葉子節點都有2個分支的樹形數據結構
什么是決策樹?
決策樹最初是用來做決策用的,就好像下面的見不見相親對象的決策過程一樣;
如果把最后的決策結果看成是分類,那么決策樹就可以用來分類了,例如,下面的例子就是把相親對象分為見和不見兩種。
假如下面是你是否見相親對象的決策樹,如果你老媽有你給的這個決策樹,那么你老媽給你介紹一個相親對象之前,按照這個決策樹走一遍,就能預測你是否相見這個相親對象了
正負樣本,特征,訓練集(數據),驗證集(數據),預測集(數據)
下面通過一個例子來區分這些概念
我們的數據集是一百個點,如下圖所示,是二維平面的100個點,這個就是我們總的數據集(全集),這些數據在文本中就是下面第二張圖所示的三個字段(x坐標,y坐標,label(正樣本還是負樣本))
對於每個數據點來說,都有自己的x,y坐標以及自己的類別(正還是負,0或者1);
而我們的目標是通過每個數據點的x,y坐標去確定該數據點的類別,但是我們不想每來一個數據點都自己親眼觀察去判斷,我們希望教會機器怎么去辨別每個數據點的類別。
我們需要告訴機器什么樣的數據點的類別是1,什么樣的數據點的類別是0,這就是正負樣本
我們把正負樣本放在一起,就組成了一個數據集,並從中抽取一部分或者全部,這就是訓練集
我們要教會機器通過什么屬性來區分數據點的類別,例如我們教會機器通過數據點的x,y坐標來判斷數據點的類別,那么在這里x,y坐標就是特征
教會了機器區分數據點,一般我們需要驗證機器區分的正確率,我們需要用一些已知類別的數據點,對比這些數據點原本的類別和機器辨別出來的類別,計算機器區分的正確率,這些數據點的特征和類別就是驗證集。
訓練集和驗證集都是正負樣本組成的集合的子集,兩者數據的格式是一樣的。一般來說我們可以在正負樣本集調整訓練集和驗證集的比例。
最后,我們有一批新的數據點,我們只有這些數據點的特征(x,y坐標),我們想讓機器預測這些數據點的類別,這些只有特征的數據集我們成為預測集。
驗證集在驗證的過程中也充當了預測集的角色,不過驗證集自帶類別,可以驗證預測的准確性,而預測集則是完全依賴與機器的預測。
所以,我們需要保證預測集和訓練集、驗證集是屬於同一個樣本空間的,否則,預測的結果可能不如人意。
下面我們來看下模型訓練過程中常見的問題
1:樣本選擇的問題
在這個例子中,我們是有一個全集的,我們可以看到數據整體分布,這是比較理想的;
然而很多時候,我們甚至不知道樣本空間的邊界在哪里,我們不知道我們抽取的正負樣本是否能代表整個樣本空間?
2:正負樣本比例問題
在這個例子中,正負樣本比例1:1,然而,在實際數據中,我們甚至不知道真實的樣本空間里面正負樣本的比例;
而正負樣本的比例有時候會對模型的評價產生影響
3:模型評價的問題
我們一般通過驗證集來檢驗模型的好壞,然而模型是過擬合還是欠擬合我們是很難衡量的,而過擬合還是欠擬合一般也是通過驗證結果來判斷,但是訓練集和驗證集的選擇有一定的隨機性,
所以,模型評價也是一個難題。
而且,對於不同的集合,對模型的要求也是不一樣的,是盡量不要預測錯,還是盡量找回更多,因實際情況而定。