1.理解分類與監督學習、聚類與無監督學習。
簡述分類與聚類的聯系與區別。
(1)分類:給數據貼標簽,通過分析已有的數據特征,對數據分成幾類,已知分類結果。然后引入新數據對其歸類。分類可以提高認知效率,較低認知成本。
(2)聚類:不知分類結果,通過數據一定的相似性,把那些相似的數據聚集在一起。
簡述什么是監督學習與無監督學習。
監督學習:
(1)每個實例都是由一組特征和一個類別結果。
(2)用有標注的數據訓練模型,並產生一個推斷的功能。
(3)對於新的實例,可以用於映射出該實例的類別.
無監督學習:
(1)我們只知道一些特征,並不知道答案
(2)但不同實例具有一定的相似性
(3)把那些相似的聚集在一起
2.朴素貝葉斯分類算法 實例
利用關於心臟情患者的臨床數據集,建立朴素貝葉斯分類模型。
有六個分類變量(分類因子):性別,年齡、KILLP評分、飲酒、吸煙、住院天數
目標分類變量疾病:–心梗–不穩定性心絞痛
新的實例:–(性別=‘男’,年齡<70, KILLP=‘I',飲酒=‘是’,吸煙≈‘是”,住院天數<7)
最可能是哪個疾病?
上傳演算過程。