手寫朴素貝葉斯(naive_bayes)分類算法


朴素貝葉斯假設各屬性間相互獨立,直接從已有樣本中計算各種概率,以貝葉斯方程推導出預測樣本的分類。

為了處理預測時樣本的(類別,屬性值)對未在訓練樣本出現,從而導致概率為0的情況,使用拉普拉斯修正(假設屬性值與類別均勻分布)。

代碼及注釋如下:

一、離散值

1,朴素貝葉斯算法計算相關參數並返回,預測使用這些參數即可

# 手寫拉普拉斯修正的朴素貝葉斯
import numpy as np
import pandas as pd
def naive_bayes(data):
    '''data:pandas.DataFrame'''
#     列名
    attrs=data.columns
#     類別
    labels=data[attrs[-1]].unique()
#     類別數
    N=labels.size
#     樣本總數
    D=data.index.size
#     c類樣本概率
    pc=np.empty(shape=(N,1))
#     c類中,第i個屬性取值為xi的概率,這里計算了所有,而非只針對測試樣本,保存后predict時直接從里面取值即可
    p_xc=[]
#     包含每個屬性的可取值
    features=[data[i].unique() for i in attrs[:-1]]
    for i in range(N):
        df=data[data[attrs[-1]]==labels[i]]
        Dc=df[attrs[0]].count()
        pc[i]=np.array([(Dc+1)/(D+N)])
        p_c=[]
        for j in range(len(features)):
            values=features[j]
            Ni=values.size
            c_attr=[]
            for value in values:
                Dc_xi=df[df[attrs[j]]==value].index.size
                c_attr.append((Dc_xi+1)/(Dc+Ni))
            p_c.append(c_attr)
        p_xc.append(p_c)
    return p_xc,pc,N,features,labels
# 預測一個樣本
def predict(x,p_xc,pc,num_class,features,labels):
    result=[]
    for i in range(num_class):
        res=1.
        c=p_xc[i]
        for j in range(len(c)):
            feature_j=c[j]
            for k in range(len(feature_j)):
                if x[j]==features[j][k]:
                    res*=feature_j[k]
        result.append(pc[i][0]*res)
    max_c=0
    max_index=-1
    for i in range(len(result)):
        if result[i]>max_c:
            max_c=result[i]
            max_index=i
    return result,labels[max_index]
# 預測多個樣本
def predicts(x,p_xc,pc,num_class,features,labels):
    result=[]
    for data in x:
        _,clazz=predict(data,p_xc,pc,num_class,features,labels)
        result.append(clazz)
    return result

2,使用西瓜集2.0訓練及測試

def createDataSet():

    dataSet = [
        # 1
        ['青綠', '蜷縮', '濁響', '清晰', '凹陷', '硬滑', '好瓜'],
        # 2
        ['烏黑', '蜷縮', '沉悶', '清晰', '凹陷', '硬滑', '好瓜'],
        # 3
        ['烏黑', '蜷縮', '濁響', '清晰', '凹陷', '硬滑', '好瓜'],
        # 4
        ['青綠', '蜷縮', '沉悶', '清晰', '凹陷', '硬滑', '好瓜'],
        # 5
        ['淺白', '蜷縮', '濁響', '清晰', '凹陷', '硬滑', '好瓜'],
        # 6
        ['青綠', '稍蜷', '濁響', '清晰', '稍凹', '軟粘', '好瓜'],
        # 7
        ['烏黑', '稍蜷', '濁響', '稍糊', '稍凹', '軟粘', '好瓜'],
        # 8
        ['烏黑', '稍蜷', '濁響', '清晰', '稍凹', '硬滑', '好瓜'],

        # ----------------------------------------------------
        # 9
        ['烏黑', '稍蜷', '沉悶', '稍糊', '稍凹', '硬滑', '壞瓜'],
        # 10
        ['青綠', '硬挺', '清脆', '清晰', '平坦', '軟粘', '壞瓜'],
        # 11
        ['淺白', '硬挺', '清脆', '模糊', '平坦', '硬滑', '壞瓜'],
        # 12
        ['淺白', '蜷縮', '濁響', '模糊', '平坦', '軟粘', '壞瓜'],
        # 13
        ['青綠', '稍蜷', '濁響', '稍糊', '凹陷', '硬滑', '壞瓜'],
        # 14
        ['淺白', '稍蜷', '沉悶', '稍糊', '凹陷', '硬滑', '壞瓜'],
        # 15
        ['烏黑', '稍蜷', '濁響', '清晰', '稍凹', '軟粘', '壞瓜'],
        # 16
        ['淺白', '蜷縮', '濁響', '模糊', '平坦', '硬滑', '壞瓜'],
        # 17
        ['青綠', '蜷縮', '沉悶', '稍糊', '稍凹', '硬滑', '壞瓜']
    ]
    

    # 特征值列表
    labels = ['色澤', '根蒂', '敲擊', '紋理', '臍部', '觸感','好壞']
    dataset=pd.DataFrame(data=dataSet,columns=labels)
    return dataset

3,訓練及預測

這里預測使用訓練數據,可以看到精度卻不咋樣,個人認為這跟樣本太小、使用了修正(修正在大樣本下的影響較小)及屬性並非相互獨立有關

dataset=createDataSet()
p_xc,pc,num_class,features,labels=naive_bayes(dataset)

value=dataset[dataset.columns[:-1]].values
result=predicts(value,p_xc,pc,num_class,features,labels)
real=dataset[dataset.columns[-1]].values
df=pd.DataFrame([[result[i]==real[i] for i in range(len(result))]])
# 精度 0.8235294117647058
df.iloc[0].sum()/df.iloc[0].count()

二、連續值

1,貝葉斯方法

def normal_distribution(mean,var,x):
    return np.power(np.e,-(x-mean)*(x-mean)/(2*var))/np.sqrt(2*np.pi*var)
# 連續值處理,假設數據服從正態分布,如上函數所示
def naive_bayes_2(X_train,y_train):
    '''data:pandas.DataFrame'''
    labels=list(set(y_train))
#     類別數
    num_class=len(labels)
    data=pd.DataFrame(X_train,columns=['l1','l2','l3','l4'])
    data['label']=y_train
    N=len(y_train)
#     均值和方差
    means=[]
    vals=[]
    #     c類樣本概率
    pc=np.empty(shape=(num_class,1))
#     對每一類求均值和方差
    for i in range(num_class):
        df=data[data['label']==labels[i]]
        l=df.index.size
        pc[i]=l/N
        mean=[]
        val=[]
#         各屬性的均值和方差
        for col in df.columns[:-1]:
            mean.append(df[col].mean())
            val.append(df[col].var())
        means.append(mean)
        vals.append(val)
    
    return means,vals,pc,labels
# 預測多個樣本
def predict_2(x_test,means,vals,pc,labels):
    num_class=len(labels)
    results=[]
    for x in x_test:
        result=[]
        for i in range(num_class):
            res=1.
            res*=pc[i][0]
            j=0
            for mean,val in zip(means[i],vals[i]):
                res*=normal_distribution(mean,val,x[j])
                j+=1
            result.append(res)
        results.append(labels[result.index(max(result))])
    return results

2,使用sklearn中iris數據集

from sklearn.datasets import load_iris
data = load_iris()

x=data['data']
y=data['target']
cols=data['target_names']

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test=train_test_split(x,y,test_size=0.2,random_state=10)

3,訓練及測試

means,vals,pc,labels=naive_bayes_2(X_train,y_train)

results=predict_2(X_test,means,vals,pc,labels)

from sklearn.metrics import accuracy_score
# 精度100%
accuracy_score(results,y_test)

三、總結

例舉了2個例子,離散值的樣本少,使用了修正,精度不咋樣,連續值的精度100%,取得不錯的效果,也說明各個類別下的各個特征基本符合正態分布。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM