ML 05、分類、標注與回歸


機器學習算法 原理、實現與實踐 —— 分類、標注與回歸

1. 分類問題

分類問題是監督學習的一個核心問題。在監督學習中,當輸出變量$Y$取有限個離散值時,預測問題便成為分類問題。

監督學習從數據中學習一個分類決策函數或分類模型,稱為分類器(classifier)。分類器對新的輸入進行輸出的預測,這個過程稱為分類。

分類問題包括學習與分類兩個過程。在學習的過程中,根據已知的訓練樣本數據集利用有效的學習方法學習一個分類器;在分類中,利用學習的分類器對新的輸入實例進行分類。

對於訓練數據集$(x_1,y_1),(x_2,y_2),\dots,(x_N,y_N)$,學習系統將學習一個分類器$P(Y|X)$或$Y=f(X)$;分類系統通過學到的分類器$P(Y|X)$或$Y=f(X)$對於新的輸入實例$x_{N+1}$進行分類,即預測其輸出的類標記$y_{N+1}$。

評價分類器性能的指標一般是分類的准確率,其定義是:對於給定的測試數據集,分類器正確分類的樣本數與總樣本數之比。

對於二分類問題常用的評價指標是精確率(precision)與召回率(recall)。通常以關注的類為正類,其他類為負類,分類器在測試數據集上的預測或正確或不正確,4種情況出現的總數分別記作:

  • TP —— 將正類預測為正類的數量;
  • FN —— 將正類預測為負類的數量;
  • FP —— 將負類預測為正類的數量;
  • TN —— 將負類預測為負類的數量;

精確率定義為:

$$P = \frac{TP}{TP+FP}$$

召回率定義為:

$$R = \frac{TP}{TP+FN}$$

此外,還有一個$F_1$值,是精確率和召回率的調用均值,即

$$\frac{2}{F_1} = \frac{1}{P}+\frac{1}{R}$$

$$F_1 = \frac{2TP}{2TP+FP+FN}$$

精確率真和召回率都高時,$F_1$也會高。

許多的機器學習方法可以用來解決分類問題,包括$k$近鄰法、感知機、朴素貝葉斯法、決策樹、邏輯斯諦回歸模型、SVM、adaBoost、貝葉斯網絡、神經網絡等。

比如一個文本內容分類的例子。文本分類是根據文本的特征將其划分到已有的類中。輸入是文本的特征向量,輸出是文本的類別。通常把文本中的單詞定義為特征,每個單詞對應一個特征。單詞的特征可以是二值的:如果單詞在文本中出現則取值1,否則是0;也可以是多值的,表示單詞在文本中出現的頻率。形象地,如果“股票”“銀行”“貨幣”這些詞出現很多,這個文本可能屬於經濟類,如果“網球”“比賽”“運動員”這些詞頻繁出現,這個文本可能屬於體育類。

2. 標注問題

標注問題也是一個監督學習問題。可以認為標記問題是分類問題的一個推廣。

標注問題的輸入是一個觀測序列,輸出的是一個標記序列或狀態序列。也就是說,分類問題的輸出是一個值,而標注問題輸出是一個向量,向量的每個值屬於一種標記類型。

標注問題也可以分為兩步:學習和標注兩個過程。首先給定一個訓練數據集

$$T = (x_1,y_1),(x_2,y_2),\dots,(x_N,y_N)$$

這里,$x_i = (x_i^{(1)},x_i^{(2)},\dots,x_i^{(n)})^T,i = 1,2,\dots,N$是輸入觀測序列,$y_i = (y_i^{(1)},y_i^{(2)},\dots,y_i^{(n)})^T$是相應的輸出標記序列,$n$是序列的長度,對於不同樣本可以有不同的值。學習系統基於訓練數據集構建一個模型,表示為條件概率分布:

$$P(Y^{(1)},Y^{(2)},\dots,Y^{(n)}|X^{(1)},X^{(2)},\dots,X^{(n)})$$

這里,每一個$X^{(i)}(i=1,2,\dots,N)$取值為所有可能的觀測,每一個$Y^{(i)}(i=1,2,\dots,N)$取值為所有可能的標記,一般$n \ll N$。標注系統按照學習得到的條件概率分布模型,對新的輸入觀測序列找到相應的輸出標記序列。具體地,對一個觀測序列$x_{N+1} = (x_{N+1}^{(1)},x_{N+1}^{(2)},\dots,x_{N+1}^{(n)})^T$找到使條件概率$P(y_{N+1}^{(1)},y_{N+1}^{(2)},\dots,y_{n+1}^{(n)}|x_{N+1}^{(1)},x_{N+1}^{(2)},\dots,x_{N+1}^{(n)})$最大的標記序列$y_{N+1} = (y_{N+1}^{(1)},y_{N+1}^{(2)},\dots,y_{N+1}^{(n)})^T$。

評價標注模型的指標與評價分類的模型指標一樣,常用的有標注准確率、精確率和召回率等。

標注常用的機器學習方法有:隱性馬爾可夫模型、條件隨機場。

自然語言處理中的詞性標注(part of speech tagging)就是一個典型的標注問題:給定一個由單詞組成的句子,對這個句子中的每一個單詞進行詞性標注,即對一個單詞序列預測其對應的詞性標記序列。

3. 回歸問題

回歸問題也屬於監督學習中的一類。回歸用於預測輸入變量與輸出變量之間的關系,特別是當輸入變量的值發生變化時,輸出變量的值隨之發生的變化。

回歸模型正是表示從輸入變量到輸出變量之間映射的函數。回歸問題的學習等價於函數擬合:選擇一條函數曲線,使其很好地擬合已知數據且很好地預測未知數據。

回歸問題按照輸入變量的個數,可以分為一元回歸和多元回歸;按照輸入變量與輸出變量之間關系的類型,可以分為線性回歸和非線性回歸。

回歸學習最常用的損失函數是平方損失,在此情況下,回歸問題可以由著名的最小二乘法求解。

一個回歸學習用於股票預測的例子:假設知道一個公司在過去不同時間點的市場上的股票價格(或一段時間的平均價格),以及在各個時間點之間可能影響該公司股份的信息(比如,公司前一周的營業額)。目標是從過去的數據學習一個模型,使它可以基於當前的信息預測該公司下一個時間點的股票價格。具體地,將影響股價的信息視為自變量(輸入特征),而將股價視為因變量(輸出的值)。將過去的數據作為訓練數據,就可以學習一個回歸模型,並對未來股份進行預測。實際我們知道想做出一個滿意的股價預測模型是很難的,因為影響股份的因素非常多,我們未必能獲得那些有用的信息。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM