機器學習中的標簽數據和無標簽數據


  今天在數據人網上看到一篇文章。區分監督學習和無監督學習,監督學習的數據就是有標簽數據,無監督學習的數據就是無標簽數據。這是我的理解,歡迎指教。

原文鏈接http://www.shujuren.org/article/62.html  原文如下

  

監督式和非監督式機器學習算法

作者 Frankchen 

什么是監督式機器學習,它與和非監督式機器學習有什么關聯呢?

本文中你將了解到監督式學習,非監督式學習和半監督式學習在閱讀本文之后你將知道如下知識:

  • 有關分類和回歸的監督式學習問題
  • 關於聚類和關聯非監督式學習問題
  • 用於監督式和非監督式問題的Example算法案例
  • 半監督式學習介於監督式和非監督式學習之間

讓我們開始吧。

監督式機器學習

實際應用中的機器學習在大部分情況下我們都會使用監督式學習。

監督式學習指的是你擁有一個輸入變量(x)(x)和一個輸出變量(Y)(Y),使用某種算法去學習從輸入到輸出的映射函數

Y=f(X)Y=f(X)

我們的目標是足夠好的近似映射函數,以便當我們在新的數據$(x)$上可以預測輸出變量(Y)(Y)。

這種學習方式就稱之為監督式學習,因為算法學習從訓練數據集學習的過程可以被看成類似於一名教師在監督學習學習的過程。我們已經知道了正確的答案,而算法不斷迭代來對訓練數據做出預測同時不斷被一名教師修正。當算法達到一個可接受程度的表現時學習過程停止。

監督式學習問題可以進一步被分為回歸和分類問題

  • 分類:分類問題指的是當輸出變量屬於一個范疇,比如“紅色”和“藍色”或者“生病”和“未生病”。
  • 回歸:回歸問題指的是輸出變量是一個實值,比如“價格”和“重量”

還有一些種類的問題建立在分類和回歸之上,包括推薦問題和時序預測

一些流形的監督式機器學習算法的例子:

回歸問題中的線性回歸
分類和回歸問題中的隨機森林
分類問題中的支持向量機

非監督式機器學習

非監督式學習指的是我們只擁有(X)(X)但是沒有相關的輸出變量。

非監督式學習的目標是對數據中潛在的結構和分布建模,以便對數據作更進一步的學習。

這種學習方式就稱為非監督式學習,因為其和監督式學習不同,對於學習並沒有確切的答案和學習過程也沒有教師監督。算法獨自運行以發現和表達數據中的有意思的結構。

非監督式學習問題可以進一步分為聚類問題和關聯問題

  • 聚類問題:聚類學習問題指的是我們想在數據中發現內在的分組,比如以購買行為對顧客進行分組。
  • 關聯問題:關聯問題學習問題指的是我們想發現數據的各部分之間的聯系和規則,例如購買X物品的顧客也喜歡購買Y物品。

一些流形的非監督式學習算法的例子:

  • 聚類問題的k-means算法
  • 關聯規則學習問題中的Apriori算法

半監督式機器學習

當我們擁有大部分的輸入數據(X)(X)但是只有少部分的數據擁有標簽(Y)(Y),這種情形稱為半監督式學習問題

半監督式學習問題介於監督式和非監督式學習之間。這里有一個好例子如:照片分類,但是只有部分照片帶有標簽(如,狗、貓和人),但是大部分照片都沒有標簽。

許多現實中的機器學習問題都可以歸納為這一類。因為對數據打標簽需要專業領域的知識,這是費時費力的。相反無標簽的數據和收集和存儲起來都是方便和便宜的。

我們可以使用非監督式學習的技術來發現和學習輸入變量的結構。

我們也可以使用監督式學習技術對無標簽的數據進行標簽的預測,把這些數據傳遞給監督式學習算法作為訓練數據,然后使用這個模型在新的數據上進行預測。

總結

從本文你可以了解到監督式,非監督式和半監督式學習的不同之處。你現在直到如下:

  • 監督式學習:所有的數據都有標簽並且算法從輸入數據學習如何預測輸
  • 非監督式學習:所有的數據都是無標簽的並且算法從輸入數據中學習數據固有的結構
  • 半監督式學習:部分數據是有標簽的,但大部分沒有標簽,是一種監督式和非監督式學習的手段都可以使用的學習方法。

關於監督式,非監督式或者半監督式學習,你有什么問題嗎?歡迎留下評論,我將竭力解答。
原文鏈接:Supervised and Unsupervised Machine Learning Algorithms


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM