在機器學習中,監督學習和非監督學習算法是非常重要的,但是二者應該如何區分開來呢?
要向對二者進行區分,首先就要對訓練的數據進行檢查,看一下訓練數據中是否有標簽,這是二者最根本的區別。監督學習的數據既有特征又有標簽,而非監督學習的數據中只有特征而沒有標簽。
監督學習是通過訓練讓機器自己找到特征和標簽之間的聯系,在以后面對只有特征而沒有標簽的數據時可以自己判別出標簽,監督學習可以分為兩大類:回歸分析和分類,二者之間的區別在於回歸分析針對的是連續數據,而分類針對的是離散數據。
非監督學習由於訓練數據中只有特征沒有標簽,所以就需要自己對數據進行聚類分析,然后就可以通過聚類的方式從數據中提取一個特殊的結構。
然而在監督學習與非監督學習之間還存在着一種半監督學習。
半監督學習的訓練數據中有一部分是有標簽的,另一部分是沒有標簽的,而沒標簽的數據量遠遠大於有標簽的數據量。隱藏在半監督學習下的基本規律在於數據的分布必然不是完全隨機的,通過一些有標簽數據的局部特征,以及更多沒標簽數據的整體分布,就可以得到可以接受甚至是非常好的分類結果。