NLP學習筆記07---專家系統、機器學習、朴素貝葉斯、評估的標准(精確率、召回率)


1.學習的兩種主流方式

 

專家系統基於概率的系統最根本的區別就是:數據量的不同

數據量大則優先使用基於概率的系統;若數據量小或沒有數據,則推薦使用專家系統。

2.專家系統介紹

 

專家系統的特點:能夠處理不確定性、知識的表示、可解釋性、可以做知識推理

3.機器學習入門介紹

(1)定義

(2)機器學習的分類

兩大流派:<1>有監督的(Supervised Learning,即我們有一些訓練數據,通過訓練數據去構建一個模型)、無監督的(unsupervised Learning)  <2>生成模型(generative model)、判別模型(discriminative)

 

<1>有監督學習

以情感分析為例,下圖解釋的有監督訓練的模型

首先,給定一個語料庫(即訓練數據),該語料庫包含文本(x)及其情感傾向判斷結果(y),通過訓練語料庫,得到函數f,用來進行判別用戶新的輸入的情感傾向

下面是經典的有監督的算法:

 

<2>無監督學習

所給的訓練數據只包含x,不含有y

 

常用的無監督學習的算法

<3>生成模型(generative model)和判別模型(discriminative model)

生成模型通過已經訓練好的模型,可以用來生成圖片、音樂、文本等,例如生成模型會學習貓、狗的特征,再利用學到的特征去判斷用戶輸入的是貓或狗的概率P。

(3)模型的構建

<1>一般流程

特征工程耗時非常大,也是模型最重要的部分。

<2>端到端的模型(end to end learning)

<3>模型構建時的數據划分

為了更好的構建模型,一般將數據分為訓練數據和測試數據。

4.朴素貝葉斯(Naive Bayes)

(1)問題引出

 

具體案例1如下:

下圖計算了購買在垃圾郵件和正常郵件里出現的概率。

判斷新郵件是否是垃圾郵件:

下圖中,利用貝葉斯定理對第一個不等式進行轉化

P(正常)為先驗概率(可以根據樣本直接獲得)

上圖中,P(正常)=24/(24+12)=2/3

具體案例2:

下圖是朴素貝葉斯的具體應用案例。

在計算P(點擊/垃圾)時,應用了平滑add-one smoothing

 5.評估的方法

 

應用案例:

 

accuracy=3/6=0.5

precision=3/5=0.6

recall=3/4=0.75


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM