统计学习方法 4 贝叶斯判别


简述

利用观测到的x,利用先验概率和类条件概率,决定x属于哪一类

后验概率无法直接获得,因此我们需要找到方法来计算它,而解决方法就是引入贝叶斯公式。

贝叶斯理论

image

可以看出,贝叶斯公式是“由果溯因”的思想,当知道某件事的结果后,由结果推断这件事是由各个原因导致的概率为多少。

  • 先验概率:执因求果,这是一个根据以往经验和分析统计得到的,或自身依据经验得出的一个概率。
  • 后验概率:知果求因。指某件事已经发生,想要计算这件事发生的原因是由某个因素引起的概率
  • 极大似然概率:知果求最可能的原因,最可能三字体现出极大的涵义。

已知车祸有一定概率会导致堵车,此处车祸是因,堵车是果。我们可以假设有以下三种情况作为堵车的原因:

  • A 警察查酒驾
  • B 下班高峰
  • C 车祸

\[P(车祸|堵车) = \frac{P(堵车|车祸)*P(车祸)}{P(堵车)}=\frac{P(堵车|车祸)*P(车祸)}{P(堵车|A)+P(堵车|B)+P(堵车|C)} \]

  • 先验概率:P(A),P(B),P(C);
  • 后验概率:P(A|堵车),P(B|堵车),P(C|堵车),即已经发生了堵车,是由哪个事件(A,B,C)引起的概率;
  • 似然概率:P(堵车|A),P(堵车|B),P(堵车|C),即以上三个事件(A,B,C)发生时,发生堵车的概率。

准则:

最小错误概率准则,最小风险准则

朴素贝叶斯分类器

概念

朴素贝叶斯分类(NBC)是以贝叶斯定理为基础并且假设特征条件之间相互独立的方法,先通过已给定的训练集,以特征词之间独立作为前提假设,学习从输入到输出的联合概率分布,再基于学习到的模型,输入\(X\) 求出使得后验概率最大的输出\(Y\)

设有样本数据集

image

对应样本数据的特征属性集为

image

类变量

image

\(D\)可以分为\(y_m\)类, 此时\(x_1,x_2,...x_d\)相互独立且随机,则\(Y\)先验概率\(P_{prior}=P(Y)\)后验概率\(P_{post}=P(Y|X)\),由朴素贝叶斯算法可得,后验概率可以由先验概率\(P_{prior} = P(Y)\)、证据\(P(X)\) 、类条件概率\(P(X|Y)\)

计算出:

image

朴素贝叶斯基于各特征之间相互独立,在给定类别为\(y\) 的情况下,上式可以进一步表示为下式:

image

由以上两式可以计算出后验概率为:

image

由于\(P(X)\)的大小是固定不变的,因此在比较后验概率时,只比较上式的分子部分即可。因此可以得到一个样本数据属于类别\(y_i\)的朴素贝叶斯计算:

image

优缺点

优点

朴素贝叶斯算法假设了数据集属性之间是相互独立的,因此算法的逻辑性十分简单,并且算法较为稳定,当数据呈现不同的特点时,朴素贝叶斯的分类性能不会有太大的差异。换句话说就是朴素贝叶斯算法的健壮性比较好,对于不同类型的数据集不会呈现出太大的差异性。当数据集属性之间的关系相对比较独立时,朴素贝叶斯分类算法会有较好的效果。

缺点

属性独立性的条件同时也是朴素贝叶斯分类器的不足之处。数据集属性的独立性在很多情况下是很难满足的,因为数据集的属性之间往往都存在着相互关联,如果在分类过程中出现这种问题,会导致分类的效果大大降低。

决策规则

最小错误

以两类问题为例,当获得观测值x之后,有两种决 策可能:决定\(x\)\(\omega1\),或者\(x\)\(\omega2\) 条件错误率为:

image

Bayes最小错误率决策: 选择后验概率\(P(\omega_1|x)\)\(P(\omega2|x)\) 中大的i作为决 策,使得在观测值\(x\)下的条件错误率最小:

\[D(x) = argmax_i P(\omega_i|x) \]

此时的条件错误率为

\[P(e|x) = 1 - max_iP(\omega_i|x) \]

错误率为

\[P(e) = E(P(e|x)) \]

基于最小错误准则的贝叶斯判别规律

\(P(\omega_i|x)>P(\omega_j|x),j=1,2,...,c\)\(j\neq i\),则\(x\in \omega_i\)

\(p(x|\omega_i)P(\omega_i)>p(x|\omega_j)P(\omega_j)\)\(j=1,2,...,c\)\(j \neq i\),则 \(x \in \omega_i\)

\(l(x) = \frac{p(x|\omega_i)}{x|\omega_j}>\frac{P(\omega_j)}{P(\omega_i)}\)\(j=1,2,...,c\)\(j \neq i\),则\(x \in \omega_i\)

\(ln(p|\omega_i)+lnP(\omega_i)>lnp(x|\omega_j)+lnP(\omega_j)\)\(j=1,2,...,c\)\(j \neq i\),则\(x \in \omega_i\)

一般来说,此类判别函数称为\(g(x)\),判别的规则是选取最大的\(g(x)\)

示例:以二分类为例

image

最小风险准则

根据贝叶斯公式:

image

其中:

image

在在引入损失函数后, 对应于决策\(a_i\),λ可以在c个\(\lambda(a_i,\omega_j)\) ,j=1,2,..c中任意选取一个,相应的后验 概率为\(P(\omega_j|x)\)

故采用决策\(a_i\)时的条件期望损失是:

\[R(a_i|x) =E[\lambda(a_i,\omega_j)]=\sum_{j=1}^{c}\lambda(a_i,\omega_j)P(\omega_j|x) \]

例题

image

image

此时用贝叶斯最小错误估计

image

用贝叶斯最小误差估计

引入风险函数后:

image

此时认为应选择\(a_2\),即认为异常

总结

最小风险的贝叶斯决策相当于通过给定期望损失的形式给判别数加权


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM