朴素貝葉斯常見面試題
1、 朴素貝葉斯與LR的區別?
朴素貝葉斯是生成模型,根據已有樣本進行貝葉斯估計學習出先驗概率P(Y)和條件概率P(X|Y),進而求出聯合分布概率P(XY),最后利用貝葉斯定理求解P(Y|X),
而LR是判別模型,根據極大化對數似然函數直接求出條件概率P(Y|X);
朴素貝葉斯是基於很強的條件獨立假設(在已知分類Y的條件下,各個特征變量取值是相互獨立的),而LR則對此沒有要求;
朴素貝葉斯適用於數據集少的情景,而LR適用於大規模數據集。
2、朴素貝葉斯“朴素”在哪里?
簡單來說:利用貝葉斯定理求解聯合概率P(XY)時,需要計算條件概率P(X|Y)。在計算P(X|Y)時,朴素貝葉斯做了一個很強的條件獨立假設(當Y確定時,X的各個分量取值之間相互獨立),即P(X1=x1,X2=x2,…Xj=xj|Y=yk) = P(X1=x1|Y=yk)P(X2=x2|Y=yk)…*P(Xj=xj|Y=yk)。
3、 在估計條件概率P(X|Y)時出現概率為0的情況怎么辦?
簡單來說:引入λ,當λ=1時稱為拉普拉斯平滑。
4、 朴素貝葉斯的優缺點
優點:對小規模的數據表現很好,適合多分類任務,適合增量式訓練。
缺點:對輸入數據的表達形式很敏感(離散、連續,值極大極小之類的)。
重點:
面試的時候怎么回答朴素貝葉斯呢?
首先朴素貝斯是一個生成模型(很重要),其次它通過學習已知樣本,計算出聯合概率,再求條件概率。
生成模式和判別模式的區別:
生成模式:由數據學得聯合概率分布,求出條件概率分布P(Y|X)的預測模型;
常見的生成模型有:朴素貝葉斯、隱馬爾可夫模型、高斯混合模型、文檔主題生成模型(LDA)、限制玻爾茲曼機
判別模式:由數據學得決策函數或條件概率分布作為預測模型
常見的判別模型有:K近鄰、SVM、決策樹、感知機、線性判別分析(LDA)、線性回歸、傳統的神經網絡、邏輯斯蒂回歸、boosting、條件隨機場