在機器學習中,一組記錄的集合被稱為數據集,其中每條記錄是關於一個事件或對象的描述,稱為實例或樣本,反映了事件或對象在某方面的表現或性質的事項。有時整個數據集亦稱一個樣本,因為它可看作對樣本空間的一個采樣。由屬性張成的空間被稱為屬性空間、樣本空間或輸入空間。由於空間中的每個點都對應一個坐標向量,因此也把一個示例稱為一個特征向量。
一般地,令D={x1,x2,...,xm}表示包含m個示例的數據集,每個示例由d個屬性描述,則d稱為樣本xi的維數。
從數據中學得模型的過程稱為學習或訓練,這個過程通過執行某個學習算法來完成。訓練過程中使用的數據稱為訓練數據,其中每個樣本稱為一個訓練樣本、訓練示例或訓練例,訓練樣本組成的集合稱為訓練集。學得模型對應了關於數據的某種潛在的規律,因此亦稱假設;這種潛在規律自身。則稱為真相或真實,學習過程就是為了找出或逼近真相。學習算法通常有參數需設置,使用不同的參數值或訓練數據將產生不同的結果。
若在訓練樣本中存在包含示例數據的結果信息,則將關於示例結果的信息,稱為標記;擁有了標記信息的示例,則稱為樣例。所有標記的集合稱為標記空間或輸出空間。
若欲預測的是離散值,例如“好”“壞”,則將此類學習任務稱為分類;若欲預測的是連續值,例如0.94、0.66,此類學習任務稱為回歸。對只涉及兩個類別的二分類任務,通常稱其中一個類為正類,另一個類為反類或負類;涉及多個類別時,則稱為多分類任務。一般地,預測任務是希望通過對訓練集進行學習,建立一個從輸入空間X到輸出空間Y的映射。
學得模型后,使用其進行預測的過程稱為測試,被預測的樣本稱為測試樣本、測試示例或測試例。
還可以對數據做聚類,即將訓練集中的數據分成若干組,每組稱為一個簇;這些自動形成的簇可能對應一些潛在的概念划分。
根據訓練數據是否擁有標記信息,學習任務大致划分為兩大類:監督學習和無監督學習(或有導師學習和無導師學習),分類和回歸是前者代表。而聚類則是后者代表。
學得模型適用於新樣本的能力,稱為泛化能力。具有強泛化能力的模型能很好的適用於整個樣本空間。通產假設樣本空間中全體樣本服從一個未知分布D,獲得的每個樣本都是獨立地從這個分布上采樣獲得,即獨立同分布。一般而言,訓練樣本越多,得到的關於D的信息越多,就越有可能通過學習獲得具有強泛化能力的模型。