機器學習的基本術語


在機器學習中,一組記錄的集合被稱為數據集,其中每條記錄是關於一個事件或對象的描述,稱為實例樣本,反映了事件或對象在某方面的表現或性質的事項。有時整個數據集亦稱一個樣本,因為它可看作對樣本空間的一個采樣。由屬性張成的空間被稱為屬性空間樣本空間輸入空間。由於空間中的每個點都對應一個坐標向量,因此也把一個示例稱為一個特征向量

一般地,令D={x1,x2,...,xm}表示包含m個示例的數據集,每個示例由d個屬性描述,則d稱為樣本xi的維數

從數據中學得模型的過程稱為學習訓練,這個過程通過執行某個學習算法來完成。訓練過程中使用的數據稱為訓練數據,其中每個樣本稱為一個訓練樣本訓練示例訓練例,訓練樣本組成的集合稱為訓練集。學得模型對應了關於數據的某種潛在的規律,因此亦稱假設;這種潛在規律自身。則稱為真相或真實,學習過程就是為了找出或逼近真相。學習算法通常有參數需設置,使用不同的參數值或訓練數據將產生不同的結果。

若在訓練樣本中存在包含示例數據的結果信息,則將關於示例結果的信息,稱為標記;擁有了標記信息的示例,則稱為樣例。所有標記的集合稱為標記空間輸出空間

若欲預測的是離散值,例如“好”“壞”,則將此類學習任務稱為分類;若欲預測的是連續值,例如0.94、0.66,此類學習任務稱為回歸。對只涉及兩個類別的二分類任務,通常稱其中一個類為正類,另一個類為反類負類;涉及多個類別時,則稱為多分類任務。一般地,預測任務是希望通過對訓練集進行學習,建立一個從輸入空間X到輸出空間Y的映射。

學得模型后,使用其進行預測的過程稱為測試,被預測的樣本稱為測試樣本測試示例測試例

還可以對數據做聚類,即將訓練集中的數據分成若干組,每組稱為一個;這些自動形成的簇可能對應一些潛在的概念划分。

根據訓練數據是否擁有標記信息,學習任務大致划分為兩大類:監督學習無監督學習(或有導師學習無導師學習),分類和回歸是前者代表。而聚類則是后者代表。

學得模型適用於新樣本的能力,稱為泛化能力。具有強泛化能力的模型能很好的適用於整個樣本空間。通產假設樣本空間中全體樣本服從一個未知分布D,獲得的每個樣本都是獨立地從這個分布上采樣獲得,即獨立同分布。一般而言,訓練樣本越多,得到的關於D的信息越多,就越有可能通過學習獲得具有強泛化能力的模型。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM