從 coursa 上面學的是說,監督學習是指我們來
教計算機如何“學習”,非監督學習是指讓計算機自己學習。監督學習又有兩個大的分支,
一個是 regression,另一個是 classification 既然是我們來教計算機如何學習那就必定有一個“
標准答案”。regression 是說,這個標准答案是連續的。 比如說,對三個月銷售量的估計。classification 是說,這個標准答案是離散的。比如說,對是否患有cancer的判斷。非監督學習就沒有標准答案了。比如說,給你一堆數據,讓你來分析這堆數據的結構。
-
聚類(clustering)
無監督學習的結果。聚類的結果將產生一組集合,集合中的對象與同集合中的對象彼此相似,與其他集合中的對象相異。
沒有標准參考的學生給書本分的類別,表示自己認為這些書可能是同一類別的(具體什么類別不知道)。
-
分類(classification)
有監督學習的兩大應用之一,產生離散的結果。
例如向模型輸入人的各種數據的訓練樣本,產生“輸入一個人的數據,判斷是否患有癌症”的結果,結果必定是離散的,只有“是”或“否”。
-
回歸(regression)
有監督學習的兩大應用之一,產生連續的結果。
例如向模型輸入人的各種數據的訓練樣本,產生“輸入一個人的數據,判斷此人20年后今后的經濟能力”的結果,結果是連續的,往往得到一條回歸曲線。當輸入自變量不同時,輸出的因變量非離散分布。
作者:好好愛自己
鏈接:https://www.zhihu.com/question/23194489/answer/35504284
來源:知乎
著作權歸作者所有。商業轉載請聯系作者獲得授權,非商業轉載請注明出處。
簡單地說:分類--是“監督學習”,事先知道有哪些類別可以分。聚類--是“無監督學習”,事先不知道將要分成哪些類。
分類是指分析數據庫中的一組對象,找出其共同屬性。然后根據分類模型,把它們划分為不同的類別。分類數據首先根據訓練數據建立分類模型,然后根據這些分類描述分類數據庫中的測試數據或產生更恰當的描述。
聚類是指數據庫中的數據可以划分為一系列有意義的子集,即類。在同一類別中,個體之間的距離較小,而不同類別上的個體之間的距離偏大。聚類分析通常稱為“無監督學習”。
聚類是指數據庫中的數據可以划分為一系列有意義的子集,即類。在同一類別中,個體之間的距離較小,而不同類別上的個體之間的距離偏大。聚類分析通常稱為“無監督學習”。
_________________________________
簡單地說就是把相似的東西分到一組,聚類的時候
,我們並不關心某一類是什么,我們需要實現的目標只是
把相似的東西聚到一起,因此,一個聚類算法通常只需要知道如何計算相似度就可以開始工作了,因此 clustering 通常並不需要使用訓練數據進行學習,這在Machine Learning中被稱作unsupervised learning (無監督學習)。
聚類分析目的在於將相似的事物歸類,同一類中的個體有較大的相似性,不同類的個體差異性很大。
_____________________________________
簡單地說,分類(Categorization or Classification)就是按照某種標准給對象貼標簽(label),再根據標簽來區分歸類。
簡單地說,聚類是指事先沒有“標簽”而通過某種成團分析找出事物之間存在聚集性原因的過程。
區別是,分類是事先定義好類別 ,類別數不變 。分類器需要由人工標注的分類訓練語料訓練得到,屬於有指導學習范疇。聚類則沒有事先預定的類別,類別數不確定。 聚類不需要人工標注和預先訓練分類器,類別在聚類過程中自動生成 。分類適合類別或分類體系已經確定的場合,比如按照國圖分類法分類圖書;聚類則適合不存在分類體系、類別數不確定的場合,一般作為某些應用的前端,比如多文檔文摘、搜索引擎結果后聚類(元搜索)等。
分類的目的是學會一個分類函數或分類模型(也常常稱作分類器 ),該模型能把數據庫中的數據項映射到給定類別中的某一個類中。 要構造分類器,需要有一個訓練樣本數據集作為輸入。訓練集由一組數據庫記錄或元組構成,每個元組是一個由有關字段(又稱屬性或特征)值組成的特征向量,此外,訓練樣本還有一個類別標記。一個具體樣本的形式可表示為:(v1,v2,...,vn; c);其中vi表示字段值,c表示類別。分類器的構造方法有統計方法、機器學習方法、神經網絡方法等等。
聚類(clustering)是指根據“物以類聚”原理(我們並不關心某一類是什么,只是把相似的東西聚到一起),將本身沒有類別的樣本聚集成不同的組,這樣的一組數據對象的集合叫做簇,並且對每一個這樣的簇進行描述的過程。它的目的是使得屬於同一個簇的樣本之間應該彼此相似,而不同簇的樣本應該足夠不相似。與分類規則不同,進行聚類前並不知道將要划分成幾個組和什么樣的組,也不知道根據哪些空間區分規則來定義組。其目的旨在發現空間實體的屬性間的函數關系,挖掘的知識用以屬性名為變量的數學方程來表示。聚類技術正在蓬勃發展,涉及范圍包括數據挖掘、統計學、機器學習、空間數據庫技術、生物學以及市場營銷等領域,聚類分析已經成為數據挖掘研究領域中一個非常活躍的研究課題。常見的聚類算法包括:K-均值聚類算法、K-中心點聚類算法、CLARANS、 BIRCH、CLIQUE、DBSCAN等。