西瓜書習題7.1


題目描述

試用極大似然法估計西瓜數據集3.0中前3個屬性的類條件概率。

解答

如果不用極大似然法,直接根據

\[P(x_i,c)=\frac{|D_{c,x_i}|}{|D|} \]

也可以求出條件概率,和用極大似然估計做出一樣。但題目要求用極大似然估計,那還是套用一下極大似然法。
這里需要估計的參數就是類條件概率。以“敲聲”屬性為例,數據統計如下:

敲聲 好瓜數 壞瓜數
濁響 6 5
沉悶 2 3
清脆 0 2

下面用極大似然法估計壞瓜敲聲屬性的條件概率,好瓜敲聲屬性及其他屬性的概率用類似的方法可求。
\(p_{敲聲=濁響|壞瓜}=p_1, p_{敲聲=沉悶|壞瓜}=p_2, p_{敲聲=清脆}=p_3\)\(p_3=1-p_1-p_2\)
因為當前兩種屬性給定時,第三種屬性出現的概率也就確定了,即上面三個變量不是獨立的,事實上,它們的和必須為 \(1\),如果沒有這個約束,就無法求解。所以下面以 \([p_1,p_2]\) 為參數求解。

根據西瓜書式(7.9),這些屬性在給出的數據集上發生的概率為

\[\begin{aligned} P(D_{壞瓜}|[p_1,p_,p_3]) &= \prod_{x\in D_{壞瓜}}(x|[p_1,p_2]) \\ &= p_1^5 p_2^3 (1-p_1-p_2)^2 \end{aligned} \]

對數似然為

\[\begin{aligned} LL([p_1,p_2]) &= ln\ P(D_{壞瓜}|[p_1,p_2]) \\ &= 5ln(p_1) + 3ln(p_2) + 2ln(1-p_1-p_2) \\ \end{aligned} \]

\(\frac{\partial LL}{\partial p_1}=0,\frac{\partial LL}{\partial p_2}=0\),得 \(p_1=\frac{1}{2},p_2=\frac{3}{10}\)
其余值可以用類似方法求得。可以看出直接用某類屬性對應樣本數和該類樣本數的比值得到的結果一致。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM