題目描述
試用極大似然法估計西瓜數據集3.0中前3個屬性的類條件概率。
解答
如果不用極大似然法,直接根據
\[P(x_i,c)=\frac{|D_{c,x_i}|}{|D|} \]
也可以求出條件概率,和用極大似然估計做出一樣。但題目要求用極大似然估計,那還是套用一下極大似然法。
這里需要估計的參數就是類條件概率。以“敲聲”屬性為例,數據統計如下:
敲聲 | 好瓜數 | 壞瓜數 |
---|---|---|
濁響 | 6 | 5 |
沉悶 | 2 | 3 |
清脆 | 0 | 2 |
下面用極大似然法估計壞瓜敲聲屬性的條件概率,好瓜敲聲屬性及其他屬性的概率用類似的方法可求。
記 \(p_{敲聲=濁響|壞瓜}=p_1, p_{敲聲=沉悶|壞瓜}=p_2, p_{敲聲=清脆}=p_3\),\(p_3=1-p_1-p_2\)。
因為當前兩種屬性給定時,第三種屬性出現的概率也就確定了,即上面三個變量不是獨立的,事實上,它們的和必須為 \(1\),如果沒有這個約束,就無法求解。所以下面以 \([p_1,p_2]\) 為參數求解。
根據西瓜書式(7.9),這些屬性在給出的數據集上發生的概率為
\[\begin{aligned} P(D_{壞瓜}|[p_1,p_,p_3]) &= \prod_{x\in D_{壞瓜}}(x|[p_1,p_2]) \\ &= p_1^5 p_2^3 (1-p_1-p_2)^2 \end{aligned} \]
對數似然為
\[\begin{aligned} LL([p_1,p_2]) &= ln\ P(D_{壞瓜}|[p_1,p_2]) \\ &= 5ln(p_1) + 3ln(p_2) + 2ln(1-p_1-p_2) \\ \end{aligned} \]
令 \(\frac{\partial LL}{\partial p_1}=0,\frac{\partial LL}{\partial p_2}=0\),得 \(p_1=\frac{1}{2},p_2=\frac{3}{10}\)。
其余值可以用類似方法求得。可以看出直接用某類屬性對應樣本數和該類樣本數的比值得到的結果一致。