機器學習的基本術語

本文轉載自查看原文 2021-09-06 21:45 110 機器學習

在機器學習中，一組記錄的集合被稱為數據集，其中每條記錄是關於一個事件或對象的描述，稱為實例或樣本，反映了事件或對象在某方面的表現或性質的事項。有時整個數據集亦稱一個樣本，因為它可看作對樣本空間的一個采樣。由屬性張成的空間被稱為屬性空間、樣本空間或輸入空間。由於空間中的每個點都對應一個坐標向量，因此也把一個示例稱為一個特征向量。

一般地，令D={x1,x2,...,xm}表示包含m個示例的數據集，每個示例由d個屬性描述，則d稱為樣本xi的維數。

從數據中學得模型的過程稱為學習或訓練，這個過程通過執行某個學習算法來完成。訓練過程中使用的數據稱為訓練數據，其中每個樣本稱為一個訓練樣本、訓練示例或訓練例，訓練樣本組成的集合稱為訓練集。學得模型對應了關於數據的某種潛在的規律，因此亦稱假設；這種潛在規律自身。則稱為真相或真實，學習過程就是為了找出或逼近真相。學習算法通常有參數需設置，使用不同的參數值或訓練數據將產生不同的結果。

若在訓練樣本中存在包含示例數據的結果信息，則將關於示例結果的信息，稱為標記；擁有了標記信息的示例，則稱為樣例。所有標記的集合稱為標記空間或輸出空間。

若欲預測的是離散值，例如“好”“壞”，則將此類學習任務稱為分類；若欲預測的是連續值，例如0.94、0.66，此類學習任務稱為回歸。對只涉及兩個類別的二分類任務，通常稱其中一個類為正類，另一個類為反類或負類；涉及多個類別時，則稱為多分類任務。一般地，預測任務是希望通過對訓練集進行學習，建立一個從輸入空間X到輸出空間Y的映射。

學得模型后，使用其進行預測的過程稱為測試，被預測的樣本稱為測試樣本、測試示例或測試例。

還可以對數據做聚類，即將訓練集中的數據分成若干組，每組稱為一個簇；這些自動形成的簇可能對應一些潛在的概念划分。

根據訓練數據是否擁有標記信息，學習任務大致划分為兩大類：監督學習和無監督學習（或有導師學習和無導師學習），分類和回歸是前者代表。而聚類則是后者代表。

學得模型適用於新樣本的能力，稱為泛化能力。具有強泛化能力的模型能很好的適用於整個樣本空間。通產假設樣本空間中全體樣本服從一個未知分布D，獲得的每個樣本都是獨立地從這個分布上采樣獲得，即獨立同分布。一般而言，訓練樣本越多，得到的關於D的信息越多，就越有可能通過學習獲得具有強泛化能力的模型。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 機器學習領域主要術語的英文表達機器學習能力自測題—看看你的機器學習知識能打幾分？不容錯過的機器學習試題與術語機器學習的基本步驟 Spark 機器學習機器學習--介紹從機器學習談起機器學習該怎么入門？機器學習之聚類機器學習——LightGBM 機器學習之集成學習