基於Data Mining角度的模型評估與選擇
作者:白寧超
2016年7月19日10:24:24
摘要:寫本文的初衷源於基於HMM模型序列標注的一個實驗,實驗完成之后,迫切想知道采用的序列標注模型的好壞,有哪些指標可以度量。於是,就產生了對這一專題進度學習總結,這樣也便於其他人參考,節約大家的時間。本文依舊旨在簡明扼要梳理出模型評估核心指標,重點達到實用。本文布局如下:第一章采用統計學習角度介紹什么是學習模型以及如何選擇,因為現今的自然語言處理方面大都采用概率統計完成的,事實證明這也比規則的方法好。第二章采用基於數據挖掘的角度探討模型評估指標和選擇。第三章采用統計自然語言處理的方法看看模型評價方法。第四章以R語言為實例,進行實戰操作,更深入了解模型的相關問題。(本文原創,轉載請注明出處:基於Data Mining角度的模型評估與選擇。)
目錄
【自然語言處理:談談學習模型的評估(一)】:統計角度窺視模型概念
【自然語言處理:談談學習模型的評估(二)】:基於Data Mining角度的模型評估與選擇
【自然語言處理:談談學習模型的評估(三)】:基於NLP角度的模型評價方法
【自然語言處理:談談學習模型的評估(四)】:基於R語言的模型案例實戰
1 模型評估的概念介紹?
評估准確率的常用技術:保持和隨機子抽樣、K-折交叉驗證、自助方法
統計顯著性檢驗:評估模型准確率
ROC曲線:接收者操作特征曲線比較分類器效果好壞
2 評估分類器模型性能的度量
混淆矩陣:正元組和負元組的合計
評估度量:(其中P:正樣本數 N:負樣本數 TP:真正例 TN:真負例 FP:假正例 FN:假負例)
注意:學習器的准確率最好在檢驗集上估計,檢驗集的由訓練集模型時未使用的含有標記的元組組成數據。
各參數描述如下:
TP(真正例/真陽性):是指被學習器正確學習的正元組,令TP為真正例的個數。
TN(真負例/真陰性):是指被學習器正確學習的負元組,令TN為真負例的個數。
FP(假正例/假陽性):是被錯誤的標記為正元組的負元組。令FP為假正例的個數。
FN(假負例/假陰性):是被錯誤的標記為負元組的正元組。令FN為假負例的個數。
高准確率的學習模型:大部分元組應該在混合矩陣的對角線上,而其他為0或者接近0,即FP和FN為0.其本質上是一個對角矩陣時准確率最高。
准確率:正確識別的元組所占的比例。又叫做識別率,公式如下:
3 實例分析:詞性標注為例
錯誤率:錯誤識別元組所占的比例,又叫誤識別率,公式如下:
或者1-accuracy(M)
檢驗時,應采用檢驗集未加入訓練集的數據,當采用訓練集估計模型時,為再帶入誤差,這種稱為樂觀估計。准確率可以度量正確標注的百分比,但是不能正確度量錯誤率。諸如樣本不平衡時,即負樣本是稀疏卻是感興趣的。比如:欺詐、癌症等。這種情況下應使用靈敏性特效性度量。
靈敏度又叫真正識別率:正確識別的正元組的百分比,公式如下:
特效性又叫真負例率:正確識別的正元組的百分比,公式如下:
准確率的靈敏度和特效性的函數關系:
精度:精確性的度量即標記為正元組實際為正元組的百分比,公式如下:
、
召回率:完全性的度量即正元組標記為正的百分比,公式如下:
精度和召回率之間趨向於逆關系,有可能以降低一個指標提升另一個指標。此刻兩個指標預想達到綜合引出了F度量值
F度量(又叫F分數):用精度和召回率的方法把他們組合到一個度量中。公式如下:
比較:F度量是精度和召回率的調和均值,賦予精度和召回率相等的權重, 度量是精度和召回率加權度量,它賦予召回率權重是精度的β倍,諸如中文詞匯中,常用詞的權重比生僻詞的權重大是一樣的道理,也符合實際應用。
注意:當元組屬於多個類時,不適合使用准確率。當數據均衡分布即正負元組基本相當時,准確率效果最好,而召回率、特效性、精度、F和 更適合於樣本分布不均的情況。
4 模型評估的幾種方法介紹
1)隨機二次抽樣評估准確率:是保持方法的一種變形,將保持方法重復K次,總准確率估計是每次迭代准確率的平均值
2)K-折交叉驗證評估准確率:(建議10折)
K-折交叉驗證:將初始的數據隨機分為大小大致相同的K份,訓練和檢驗進行K次,如第1次迭代第一份數據作為檢查集,其余K-1份作為訓練集,第2次迭代。第二份數據作為檢驗集,其余K-1份作為訓練集,以此類推直到第K份數據作為檢驗集為止。此方法每份樣本用於訓練的次數一致且每份樣本只作為一次檢驗集。准確率是K次迭代正確元組總數除以初始數據元組總數。一般建議采用10-折交叉驗證估計准確率,因為它的偏移和方差較低。
3)自助法評估准確率:
自助法有放回的均勻抽樣,常用632自助法。即63.2%原數據將出現在自助樣本中。而其余38.8%元數據形成檢驗集。
5 學習器模型的比較:ROC曲線
成本效益(風險增益):如錯誤的預測癌症患者沒有患病比將沒有患病的病人歸類癌症的代價大等等事件,據此給於不同的權重。
ROC曲線又叫接受者操作特征曲線,比較兩個學習器模型的可視化工具,橫坐標參數假正例率,縱坐標參數是真正例率。以此匯聚成的曲線,越靠近對角線(隨機猜測線)模型越不好。
真正例率(召回率):
假正例率:
實例解析:以10個檢驗元組的概率分類器為例繪制ROC曲線
由以上數據繪制ROC曲線(左圖)和兩個分類器模型M1、M2的ROC曲線
由此可知,對角線為隨機猜測線,模型的ROC曲線越靠近對角線,模型的准確率越低。如果很好的模型,真正比例比較多,曲線應是陡峭的從0開始上升,后來遇到真正比例越來越少,假正比例元組越來越多,曲線平緩變的更加水平。完全正確的模型面積為1。
4 參考文獻
【1】 數據挖掘概念與技術(364--386) 韓家煒
【2】 數據挖掘:R語言實戰(274--292) 黃文、王正林
【3】 統計自然語言處理基礎 (166—169) 宛春法等譯
【4】 統計學習方法(10---13) 李航
5 自然語言相關系列文章
【自然語言處理:馬爾可夫模型(一)】:初識馬爾可夫和馬爾可夫鏈
【自然語言處理:馬爾可夫模型(二)】:馬爾可夫模型與隱馬爾可夫模型
【自然語言處理:馬爾可夫模型(三)】:向前算法解決隱馬爾可夫模型似然度問題
【自然語言處理:馬爾可夫模型(四)】:維特比算法解決隱馬爾可夫模型解碼問題(中文句法標注)
【自然語言處理:馬爾可夫模型(五)】:向前向后算法解決隱馬爾可夫模型機器學習問題
聲明:關於此文各個篇章,本人采取梳理扼要,順暢通明的寫作手法。系統閱讀相關書目和資料總結梳理而成,旨在技術分享,知識沉淀。在此感謝原著無私的將其匯聚成書,才得以引薦學習之用。其次,本人水平有限,權作知識理解積累之用,難免主觀理解不當,造成讀者不便,基於此類情況,望讀者留言反饋,便於及時更正。本文原創,轉載請注明出處:基於Data Mining角度的模型評估與選擇。