Python机器学习笔记(1)——贝叶斯分类器—MultinomialNB

本文转载自查看原文 2021-11-04 14:44 1244 机器学习

一、内容大纲

1，贝叶斯定理

一、贝叶斯定理

假设对于某个数据集，随机变量C表示样本为C类的概率，F1表示测试样本某特征出现的概率，套用基本贝叶斯公式，则如下所示：

上式表示对于某个样本，特征F1出现时，该样本被分为C类的条件概率。那么如何用上式来对测试样本分类呢？

举例来说，有个测试样本，其特征F1出现了（F1=1），那么就计算P(C=0|F1=1)和P(C=1|F1=1)的概率值。前者大，则该样本被认为是0类；后者大，则分为1类。

对该公示，有几个概念需要熟知：

先验概率（Prior）。P(C)是C的先验概率，可以从已有的训练集中计算分为C类的样本占所有样本的比重得出。

证据（Evidence）。即上式P(F1)，表示对于某测试样本，特征F1出现的概率。同样可以从训练集中F1特征对应样本所占总样本的比例得出。

似然（likelihood）。即上式P(F1|C)，表示如果知道一个样本分为C类，那么他的特征为F1的概率是多少。

对于多个特征而言，贝叶斯公式可以扩展如下：

分子中存在一大串似然值。当特征很多的时候，这些似然值的计算是极其痛苦的。现在该怎么办？

二、朴素贝叶斯算法

朴素贝叶斯算法，是基于贝叶斯定理与特征条件独立假设的分类与方法；
为了简化计算，朴素贝叶斯算法做了一假设：“朴素的认为各个特征相互独立”。这么一来，上式的分子就简化成了：

P(C)P(F1|C)P(F2|C)...P(Fn|C)。

这样简化过后，计算起来就方便多了。

这个假设是认为各个特征之间是独立的，看上去确实是个很不科学的假设。因为很多情况下，各个特征之间是紧密联系的。然而在朴素贝叶斯的大量应用实践实际表明其工作的相当好。

其次，由于朴素贝叶斯的工作原理是计算P(C=0|F1...Fn)和P(C=1|F1...Fn)，并取最大值的那个作为其分类。而二者的分母是一模一样的。因此，我们又可以省略分母计算，从而进一步简化计算过程。

另外，贝叶斯公式推导能够成立有个重要前期，就是各个证据（evidence）不能为0。也即对于任意特征Fx，P(Fx)不能为0。而显示某些特征未出现在测试集中的情况是可以发生的。因此实现上通常要做一些小的处理，例如把所有计数进行+1（加法平滑(additive smoothing，又叫拉普拉斯平滑(Laplace smothing)）。而如果通过增加一个大于0的可调参数alpha进行平滑，就叫Lidstone平滑。

例如，在所有6个分为C=1的影评样本中，某个特征F1=1不存在，则P(F1=1|C=1) = 0/6，P(F1=0|C=1) = 6/6。

经过加法平滑后，P(F1=1|C=1) = (0+1)/(6+2)=1/8，P(F1=0|C=1) = (6+1)/(6+2)=7/8。

注意分母的+2，这种特殊处理使得2个互斥事件的概率和恒为1。

最后，我们知道，当特征很多的时候，大量小数值的小数乘法会有溢出风险。因此，通常的实现都是将其转换为log：

将乘法转换为加法，就彻底避免了乘法溢出风险。

此处，以python iris数据为例，从python导入from sklearn.datasets import load_iris：

上述训练集中共8个样本，其中C=0的5个，C=1的3个。现在，假设给你一个测试样本"花萼长度（F1）=4.6,花瓣长度(F2)=1.5"，使用加一平滑进行朴素贝叶斯的分类过程如下：

P(C=0)=5/8， P(C=1)=3/8。特征F1="4.6", F2="1.5"。

分为C=0的概率：P(F1=1, F2=1|C=0) = P(C=0)P(F1=4.6|C=0)P(F2=1.5|C=0) = 5/8 * (1+1)/(5+2) * (1+1)/(5+2) = 5/8 * 2/7 * 2/7 = 0.05。

分为C=1的概率：P(F1=1, F2=1|C=1) = P(C=1)P(F1=4.6|C=0)P(F2=1.5|C=0) = 3/8 * (1+1)/(3+2) * (2+1)/(3+2) = 3/8 * 2/5 * 3/5 = 0.09。

分为C=1的概率更大。因此将该样本分为C=1类。

三、数据模型的建立

3.1 Iris花分类

# 导入pd、np库
%matplotlib inline
import matplotlib as mpl
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

# 导入数据源
from sklearn.datasets import load_iris
#导入交叉验证库
from sklearn.model_selection import train_test_split
#导入GaussianNB库
from sklearn.naive_bayes import GaussianNB

iris = load_iris()
#设置特征X
X = iris.data
#设置目标Y
y = iris.target

#将数据集拆分为训练集和测试集,其中训练集为原数据集的60%，测试集为40%。
X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.4,random_state=524)

#建立高斯朴素贝叶斯模型。
clf=GaussianNB()

#使用训练集对模型进行训练
clf.fit(X_train,y_train)
GaussianNB(priors=None)

#使用测试集数据检验模型准确率
clf.score(X_test,y_test)

#给一组数据[5.9,3.2,5.1,2.1]进行预测
clf.predict([[5.9,3.2,5.1,2.1]])

文章部分转载：https://www.cnblogs.com/qianyin123/p/9553820.html

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 机器学习——朴素贝叶斯分类器 sklearn-MultinomialNB朴素贝叶斯分类器机器学习：朴素贝叶斯分类器实现二分类（伯努利型）代码+项目实战贝叶斯分类器贝叶斯分类器机器学习笔记14-----SVM实践和分类器的性能的评价指标(了解python画图的技巧) 机器学习基础笔记(2)：最简单的线性分类器朴素贝叶斯分类器高斯贝叶斯分类器机器学习：基于关联规则的多标签分类器