分類問題、標注問題、回歸問題


  分類問題

  分類是監督學習的一個核心問題。在監督學習中,當輸出變量Y取有限個離散值時,預測問題便成為分類問題。輸入變量X可以是離散的,也可以是連續的。

  監督學習從數據中學習一個分類模型或分類決策函數,稱為分類器(classifier)。分類器對新的輸入進行輸出的預測(prediction),稱為分類(classification)。可能的輸出稱為類(class)。分類的類別為多個時,稱為多類分類問題。

  分類問題包括學習和分類兩個過程。在學習過程中,根據已知的訓練數據集利用有效的學習方法學習一個分類器;在分類過程中,利用學習的分類器對新的輸入實例進行分類。設(x1,y1),(x2,y2),…,(xN,yN)是訓練數據集,學習系統由訓練數據學習一個分類器P(Y|X)或Y=f(X);分類系統通過學到的分類器P(Y|X)或Y=f(X)對於新的輸入實例xN+1進行分類,即預測其輸出的類標記yN+1。

  評價分類器性能的指標一般是分類准確率(accuracy),其定義是:對於給定的測試數據集,分類器正確分類的樣本數與總樣本數之比。對於二類分類問題常用的評價指標是精確率(precision)與召回率(recall)。通常以關注的類為正類,其他類為負類,分類器在測試數據集上的預測或正確或不正確,4種情況出現的總數分別記作: TP——將正類預測為正類數; FN——將正類預測為負類數; FP——將負類預測為正類數; TN——將負類預測為負類數。

  許多統計學習方法可以用於分類,包括k近鄰法、感知機、朴素貝葉斯法、決策樹、決策列表、邏輯斯諦回歸模型、支持向量機、提升方法、貝葉斯網絡、神經網絡、Winnow等

  分類在於根據其特性將數據“分門別類”,所以在許多領域都有廣泛的應用。例如,在銀行業務中,可以構建一個客戶分類模型,對客戶按照貸款風險的大小進行分類;在網絡安全領域,可以利用日志數據的分類對非法入侵進行檢測;在圖像處理中,分類可以用來檢測圖像中是否有人臉出現;在手寫識別中,分類可以用於識別手寫的數字;在互聯網搜索中,網頁的分類可以幫助網頁的抓取、索引與排序。

  標注問題

  標注問題也是一個分類問題,可以說標注問題是分類問題的一個推廣。標注問題又是更復雜的結構預測(structure predication)問題的簡單形式。標注問題的輸入是一個觀測序列,輸出是一個標記序列或狀態序列。標注問題的目標在於學習一個模型,使它能夠對觀測序列給出標記序列作為預測。可能的標記個數是有限的,但其組合而成的標記序列的個數是依序列長度呈指數級增長的。

  標注問題分為學習和標注兩個過程。評價標注模型的指標與評價分類模型的指標一樣,常用的有標注准確率、精確率和召回率。其定義與分類模型相同。標注常用的統計學習方法有隱馬爾科夫模型、條件隨機場。

  標記問題在信息提取、自然語言處理等領域被廣泛應用,是這些領域的基本問題。例如,自然語言處理中的詞性標注(part of speech tagging)就是一個典型的標注問題:給定一個由單詞組成的句子,對這個句子中的每一個單詞進行詞性標注,即對一個單詞序列預測其對應的詞性標記序列。

  回歸問題 

  回歸(regression)是監督學習的另一個重要問題。回歸用於預測輸入變量(自變量)和輸出變量(因變量)之間的關系,特別是當輸入變量的值發生變化時,輸出變量的值隨之發生的變化。回歸模型正是表示從輸入變量到輸出變量之間映射的函數。回歸問題的學習等價於函數擬合:選擇一條函數曲線,使其很好的擬合已知數據且很好地預測未知數據。

  回歸問題分為學習和預測兩個過程。回歸問題按照輸入變量的個數分為一元回歸和多元回歸;按照輸入變量與輸出變量之間關系的類型即模型的類型,分為線性回歸和非線性回歸。回歸學習最常用的損失函數是平方損失函數,此情況下回歸問題可以由最小二乘法(least squares)求解。

  許多領域問題都可以形式化為回歸問題,比如市場趨勢預測、產品質量管理、客戶滿意度調查、投資風險分析工具。假設知道某公司在過去不同時間的股價,以及各個時間點可能影響股價的其它信息等。從這些數據中學習到一個模型,使其可以基於給定時間點和其它輔助信息預測公司某個時間點的股價。將影響股價的信息作為自變量,將股價視為因變量,歷史數據作為訓練數據,就可以學習一個回歸模型。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM