1.學習的兩種主流方式
專家系統與基於概率的系統最根本的區別就是:數據量的不同
數據量大則優先使用基於概率的系統;若數據量小或沒有數據,則推薦使用專家系統。
2.專家系統介紹
專家系統的特點:能夠處理不確定性、知識的表示、可解釋性、可以做知識推理
3.機器學習入門介紹
(1)定義
(2)機器學習的分類
兩大流派:<1>有監督的(Supervised Learning,即我們有一些訓練數據,通過訓練數據去構建一個模型)、無監督的(unsupervised Learning) <2>生成模型(generative model)、判別模型(discriminative)
<1>有監督學習
以情感分析為例,下圖解釋的有監督訓練的模型
首先,給定一個語料庫(即訓練數據),該語料庫包含文本(x)及其情感傾向判斷結果(y),通過訓練語料庫,得到函數f,用來進行判別用戶新的輸入的情感傾向
下面是經典的有監督的算法:
<2>無監督學習
所給的訓練數據只包含x,不含有y
常用的無監督學習的算法
<3>生成模型(generative model)和判別模型(discriminative model)
生成模型通過已經訓練好的模型,可以用來生成圖片、音樂、文本等,例如生成模型會學習貓、狗的特征,再利用學到的特征去判斷用戶輸入的是貓或狗的概率P。
(3)模型的構建
<1>一般流程
特征工程耗時非常大,也是模型最重要的部分。
<2>端到端的模型(end to end learning)
<3>模型構建時的數據划分
為了更好的構建模型,一般將數據分為訓練數據和測試數據。
4.朴素貝葉斯(Naive Bayes)
(1)問題引出
具體案例1如下:
下圖計算了購買在垃圾郵件和正常郵件里出現的概率。
判斷新郵件是否是垃圾郵件:
下圖中,利用貝葉斯定理對第一個不等式進行轉化
P(正常)為先驗概率(可以根據樣本直接獲得)
上圖中,P(正常)=24/(24+12)=2/3
具體案例2:
下圖是朴素貝葉斯的具體應用案例。
在計算P(點擊/垃圾)時,應用了平滑add-one smoothing
5.評估的方法
應用案例:
accuracy=3/6=0.5
precision=3/5=0.6
recall=3/4=0.75