什么是分類問題，什么是回歸問題？以及兩者的區別

什么是二叉樹？

二叉樹很容易理解，在這里我們一般用滿二叉樹：就是非葉子節點都有2個分支的樹形數據結構

決策樹最初是用來做決策用的，就好像下面的見不見相親對象的決策過程一樣；

如果把最后的決策結果看成是分類，那么決策樹就可以用來分類了，例如，下面的例子就是把相親對象分為見和不見兩種。

假如下面是你是否見相親對象的決策樹，如果你老媽有你給的這個決策樹，那么你老媽給你介紹一個相親對象之前，按照這個決策樹走一遍，就能預測你是否相見這個相親對象了

下面通過一個例子來區分這些概念

我們的數據集是一百個點，如下圖所示，是二維平面的100個點，這個就是我們總的數據集（全集），這些數據在文本中就是下面第二張圖所示的三個字段（x坐標，y坐標，label（正樣本還是負樣本））

對於每個數據點來說，都有自己的x，y坐標以及自己的類別（正還是負，0或者1）；

而我們的目標是通過每個數據點的x，y坐標去確定該數據點的類別，但是我們不想每來一個數據點都自己親眼觀察去判斷，我們希望教會機器怎么去辨別每個數據點的類別。

我們需要告訴機器什么樣的數據點的類別是1，什么樣的數據點的類別是0，這就是正負樣本

我們把正負樣本放在一起，就組成了一個數據集，並從中抽取一部分或者全部，這就是訓練集

我們要教會機器通過什么屬性來區分數據點的類別，例如我們教會機器通過數據點的x，y坐標來判斷數據點的類別，那么在這里x，y坐標就是特征

教會了機器區分數據點，一般我們需要驗證機器區分的正確率，我們需要用一些已知類別的數據點，對比這些數據點原本的類別和機器辨別出來的類別，計算機器區分的正確率，這些數據點的特征和類別就是驗證集。

訓練集和驗證集都是正負樣本組成的集合的子集，兩者數據的格式是一樣的。一般來說我們可以在正負樣本集調整訓練集和驗證集的比例。

最后，我們有一批新的數據點，我們只有這些數據點的特征（x，y坐標），我們想讓機器預測這些數據點的類別，這些只有特征的數據集我們成為預測集。

驗證集在驗證的過程中也充當了預測集的角色，不過驗證集自帶類別，可以驗證預測的准確性，而預測集則是完全依賴與機器的預測。

所以，我們需要保證預測集和訓練集、驗證集是屬於同一個樣本空間的，否則，預測的結果可能不如人意。

下面我們來看下模型訓練過程中常見的問題

1：樣本選擇的問題

在這個例子中，我們是有一個全集的，我們可以看到數據整體分布，這是比較理想的；

然而很多時候，我們甚至不知道樣本空間的邊界在哪里，我們不知道我們抽取的正負樣本是否能代表整個樣本空間？

2：正負樣本比例問題

在這個例子中，正負樣本比例1：1，然而，在實際數據中，我們甚至不知道真實的樣本空間里面正負樣本的比例；

而正負樣本的比例有時候會對模型的評價產生影響

3：模型評價的問題

我們一般通過驗證集來檢驗模型的好壞，然而模型是過擬合還是欠擬合我們是很難衡量的，而過擬合還是欠擬合一般也是通過驗證結果來判斷，但是訓練集和驗證集的選擇有一定的隨機性，

所以，模型評價也是一個難題。

而且，對於不同的集合，對模型的要求也是不一樣的，是盡量不要預測錯，還是盡量找回更多，因實際情況而定。

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 機器學習基本概念,常用經典模型機器學習入門之一：基本概念如何保存訓練好的機器學習模型 python機器學習基本概念快速入門反作弊基本概念與機器學習的應用(1) 機器學習基本概念：batch_size、epoch、 iteration 機器學習（深度學習）為什么需要訓練，訓練出來的模型具體又是什么？【機器學習】DNN訓練中的問題與方法 Weka中數據挖掘與機器學習系列之基本概念（三）機器學習的模型泛化