機器學習作業題


1. 什么是機器學習?機器學習與數據挖掘十大經典算法是哪些算法?(10分)

答:機器學習這門學科所關注的問題是:計算機程序如何隨着經驗積累自動提高性能。機器學習是一門人工智能的科學,該領域的主要研究對象是人工智能,特別是如何在經驗學習中改善具體算法的性能。 機器學習是對能通過經驗自動改進的計算機算法的研究。 機器學習是用數據或以往的經驗,以此優化計算機程序的性能標准。
十大經典算法是: 1. C4.5 2. K-means 3.SVM 4. The apriori algorithm 5.最大期望(EM)算法 6.pageRank 7. AdaBoost 8.k-NN 9.朴素貝葉斯算法 10.CART 分類和回歸

2. 數據庫有如下5個事務,設min_sup=60%。

(a) 使用apriori算法找出頻繁項集(15)

(b) 使用FP-tree算法找出頻繁項集。(10)

答:(a) Apriori 算法如下: f:4 c:4 m:3 y:3 i:3



(b)FP-tree 算法如下:
FP-tree 步驟:
Step 1:遍歷一次數據庫,導出1項頻繁項的集合和支持度,降序排序。
Step 2:構造FP-tree。
Step 3:根據步驟二得到的FP-tree,為1項頻繁項集中的每一項構造FP-tree。
Step 4:得到頻繁模式。

f:4 c:4 m:3 y:3 i:3

3.根據下列訓練數據進行分類(Class為類別):

1) 若年收入屬性分為<80,≥80兩個類別,年齡屬性分為≤30,31-50,≥50三個類別,請用ID3算法建立決策樹;(15分)

2) 對X={性別=Female,年收入=90,年齡=32}用貝葉斯分類處理的結果是什么?(10分)

1)首先計算信息熵H(D)=-3/6 log(3/6)-3/6log(3/6)=log2=1
下面計算各個特征對數據集D的信息增益,分別以A1,A2,A3表示性別,年收入,年齡3個特征。
這里的D1表示划分為Male的數據,D2為划分為FeMale的數據。
g(D,A1)=H(D)-[3/6H(D1)+3/6H(D2)]=1-[3/6(-1/3 log(1/3)-2/3log(2/3)+3/6(-2/3 log(2/3)-1/3log(1/3)]=0.08
這里的D1表示年收入<80的數據,D2表示年收入>=80的數據。
g(D,A2)=H(D)-[2/6H(D1)+4/6H(D2)]=1-[2/6(0)+4/6(-3/4log(3/4)-1/4log(1/4)]=0.46
這里的D1,D2, D3分別表示年齡對應的數據。
g(D,A3)=H(D)-[2/6H(D1)+3/6H(D2)+1/6H(D3)]= 1-[2/6(0)+3/6(-1/2log(1/2)-1/2log(1/2))+1/6(0)]=0.5
g(D,A3)最大,故選擇A3作為最優特征。

(2)樣本 X={性別=Female,年收入=90,年齡=32}
P(p)=3/6=0.5
P(n)=3/6=0.5
P(性別=Female|p)=2/3 P(性別=Female|n)=1/3
P(年收入>=90|p)=2/3, P(年收入>=90|n)=1/3, P(年齡>=32|p)=1/3
P(年齡>=32|n)=1
ps:年齡落在哪個區間,概率就是區間的概率。

P(X|p)P(p)=P(性別=Female|p)P(年收入=90|p)P(年齡=32|p)P(p)
=2/32/31/30.5=2/27
P(X|n)
P(n)=P(性別=Female|n)P(年收入=90|n)P(年齡=32|n)P(n)
=1/3
1/310.5=1/18

2/27>1/18,所以結果是YES。

4.如下8個點聚為三類:

A1(1,2),A2(3,1),A3(8,4),B1(5,8),B2(4,1),B3(6,4),C1(3,5),C2(4,9),距離函數是歐氏距離,並假設初始中心為A1,B1,C1.。

(1)采用K均值算法,求在第一次循環后的三個聚類中心;求最后三個類;(15)

(2)采用系統(層次)聚類法聚為三類。(10)

解:
(1)
D(A1,A2)=2.24 D(B1,A2)=7.28 D(C1,A2)=4
D(A1,A3)=7.28 D(B1,A3)=5 D(C1,A3)=5.10
D(A1,B2)=3.16 D(B1,B2)=7.07 D(C1,B2)=4.12
D(A1,B3)=5.39 D(B1,B3)=4.12 D(C1,B3)=3.16
D(A1,C2)=7.62 D(B1,C2)=1.41 D(C1,C2)= 4.12
第一次循環以后的三個聚類為 (A1,A2,B2) (B1,A3,C2) (C1,B3)
所以聚類中心為(2.67,1.33) (5.67,7) (4.5,4.5)

最后三個類為(A1,A2,B2) (C1,B3,A3) (C2,B1) ps:通過畫圖觀察分布,只需要計算部分點。
(2)D(A1,A2)=2.24 D(A1,A3)=7.28 D(A1,B1)=7.21 D(A1,B2)=3.16 D(A1,B3)=5.39 D(A1,C1)=3.61 D(A1,C2)=7.62

D(A2,B1)=7.28 D(A2,B2)=1 D(A2,B3)=4.24 D(A2,C1)=4 D(A2,C2)=8.06
D(A3,B1)=5 D(A3,B2)=5 D(A3,B3)=2 D(A3,C1)=5.10 D(A3,C2)=6.40
D(B1,B2)=7.07 D(B1,B3)=4.12 D(B1,C1)=3.61 D(B1,C2)=1.414
D(B2,B3)=3.16 D(B2,C1)=4.12 D(B2,C2)=8
D(B3,C1)=3.16 D(B3,C2)=5.39
D(C1,C2)=4.12
最小距離為1的兩個類A2,B2合並。
重新計算以后,距離最小的為1.414 B1,C2合並.
依次類推,找點到集合中最近的點。A3,B3合並
A1和(A2,B2)合並。
C1和 (A3,B3) 合並。
最終分類(A1,A2,B2) (C2,B1) (C1,A3,B3)

再一次感謝您花費時間閱讀, (Ctrl+Alt+N) 開始撰寫新的文稿吧!祝您在這里記錄、閱讀、分享愉快!


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM