分類:
– 有類別標記信息, 因此是一種監督學習
– 根據訓練樣本獲得分類器,然后把每個數據歸結到某個已知的類,進而也可以預測未來數據的歸類。
聚類:
– 無類別標記, 因此是一種無監督學習
– 無類別標記樣本,根據信息相似度原則進行聚類,通過聚類,人們能夠識別密集的和稀疏的區域,因而發現全局的分布模式,以及數據屬性之間的關系
聚類方法:
划分方法 - (分割類型)
K-均值K-Means
順序領導者方法
基於模型的方法
基於密度的方法
層次方法(Hierarchical Methods)
K-means思想:
確定K的值;
隨機選擇K個樣本點,每個樣本點初始地代表一個類的平均值或簇中心;
對剩余每個數據樣本點,根據其到類中心的距離,被划分到最近的類;
重新計算每個簇的平均值來更新每個簇中心;
重復這個過程,直到所有樣本都不能再分配為止;
返回K中心。
K-means優點:
1、簡單,適用於常規不相交的簇。
2、假設數據是呈球形分布,實際任務中很少有這種情況
3、收斂相對較快。
4、相對有效和可擴展 O(t·k·n)
t:迭代; k:中心數; n:數據點數
K-means 缺陷
1、需要提前指定 K 的值。
很難確定,關於數據集的先驗知識(如數據集可以分成多少個部分)可能會有所幫助。
2、可能會收斂到局部最優點。
在實踐中,嘗試不同的初始中心點, 從中挑選最好的結果。
3、可能對噪聲數據和異常值敏感。
因為簇的中心是取平均,因此聚類簇很遠的地方的噪聲會導致簇的中心點偏移(這表明均值並不是一種穩健的統計量)
在k-means聚類前, 通過預處理移除噪聲點往往非常有用
聚類后, 對聚類結果進行一些后處理效果也很好, 如刪除過小的聚簇, 或將彼此接近的一些聚簇合並成一個更大的聚簇
4、不適合非凸不規則形狀的簇,K均值很難處理非球狀的簇和不同大小的簇。
DBSCAN基於密度 優缺點:
1、因為DBSCAN是基於密度定義的, 抗噪聲能力強, 並且能夠處理任意形狀和大小的簇。即能發現使用K均值所不能發現的簇。但是當簇密度變化太大時, 可能會出現問題。
2、對於高維數據, 其密度定義困難。K均值可以用於稀疏的高維數據。
3、當近鄰計算需要計算所有點對的鄰近度時, DBSCAN的開銷很大。
高斯混合模型與k-means:
共同點:
1、可用於聚類的算法
2、都需要指定k的值
3、都需要使用EM 算法求解
4、往往只能收斂於局部最優
GMM比k-means的優點是:
1、可以給出一個樣本屬於一類的概率是多少,而不是絕對的屬於哪一類
2、可以用於生成新的樣本點
3、多維的時候,高斯混合模型需要計算協方差,考察不同維度時間的約束關系
場景如下:
假設原樣本有兩類,True和False,其中:
1.總共有T個類別為True的樣本;
2.總共有F個類別為False的樣本;
分類預測后:
1.總共有TT個類別為True的樣本被系統判為True,FT個類別為True的樣本被系統判為False,則TT+FT=T
2.總共有FF個類別為False的樣本被系統判為False,TF個類別為False的樣本被系統判為True,則FF+TF=F
l 指標計算:
l 精確度=TT/(TT+TF)--判斷正樣本中真正正樣本的比例
l 准確率=(TT+FF)/(T+F)--判斷正確的比重
l 召回率=TT/(TT+FT)--正確判斷正例的比重
l 漏報率=FT/(TT+FT)--多少個正例被漏判了
l 虛警率=TF/(TT+TF)--反映被判為正例樣本中,有多少個是負例
•前向傳播-在前饋神經網絡中
•從輸入 x 到輸出 y, 信息通過網絡前向傳播
•在訓練階段, 前向傳播可以繼續向前, 直到它產生標量代價函數C(θ)
•反向傳播
•允許來自代價函數的信息然后通過網絡反向流動, 以便計算梯度
•可以被應用到任何函數
p 卷積: 圖像中不同數據窗口的數據和卷積核(一個濾波矩陣)作內積
的操作叫做卷積。其計算過程又稱為濾波(filter),本質是提取圖像
不同頻段的特征。
p 卷積核:具有的一個屬性就是局部性。即它只關注局部特征,局部的
程度取決於卷積核的大小。本質就是比較圖像鄰近像素的相似性。所
以原圖像與卷積核的卷積,其實對頻域信息進行選擇。比如,圖像中
的邊緣和輪廓屬於是高頻信息,圖像中某區域強度的綜合考量屬於低
頻信息
K-NN
n 對未知記錄分類:
n 計算與各訓練記錄的距離
n 找出 k 個最近鄰
n 使用最近鄰的類標號決定未知記錄的類標號 (例如, 多數表決)
有那么一堆你已經知道分類的數據,然后當一個新數據進入的時候,就開始跟訓練數據里的每個點求距離,然后挑離這個訓練數據最近的K個點看看這幾個點屬於什么類型,然后用少數服從多數的原則,給新數據歸類。
k-NN的特點
n1、 是一種基於實例的學習
n 需要一個鄰近性度量來確定實例間的相似性或距離
n 2、不需要建立模型,但分類一個測試樣例開銷很大
n 需要計算域所有訓練實例之間的距離
n 3、基於局部信息進行預測,對噪聲非常敏感
n 4、最近鄰分類器可以生成任意形狀的決策邊界
n 決策樹和基於規則的分類器通常是直線決策邊界
n 5、需要適當的鄰近性度量和數據預處理
n 防止鄰近性度量被某個屬性左右
直接方法: 順序覆蓋或序貫覆蓋(sequential covering)
n 在訓練集上每學到一條規則, 就將該規則覆蓋的訓練樣例去除, 然后以剩下
的訓練樣例組成訓練集, 重復上述過程
SVM
SVM 是一種二類分類模型。它的基本模型是在特征空間中尋找間隔最大化的分離超平面的線性分類器。
當訓練樣本線性可分時,通過硬間隔最大化,學習一個線性分類器,即線性可分支持向量機;
當訓練數據近似線性可分時,引入松弛變量,通過軟間隔最大化,學習一個線性分類器,即線性支持向量機;
當訓練數據線性不可分時,通過使用核技巧及軟間隔最大化,學習非線性支持向量機。
當樣本在原始空間線性不可分時,可將樣本空間映射到一個更高維的特征空間,使得樣本在這個特征空間內線性可分。而引入這樣的映射后,所要求解的對偶問題的求解中,無需求解真正的映射函數,而只需要知道核函數。核函數的定義:K(x,y)=φ(x)·φ(y),即在特征空間的內積等於它們在原始樣本空間中通過核函數 K 計算的結果。一方面數據變成了高維空間中線性可分的數據,另一方面不需要求解具體的映射函數,只需要給定具體的核函數即可,這樣使得求解的難度大大降低。
維災難(curse of dimensionality)
隨着數據維度的增加,許多數據分析變得非常困難。特殊地,隨着維度增加,數據在它所占據的空間中越來越稀疏
對於分類,這可能意味沒有足夠的數據對象來創建模型
對於聚類,點之間的密度和距離的定義(對聚類是至關重要的)變得不太有意義
結果: 對於高維數據, 許多分類和聚類算法(以及其他數據分析算法)都有麻煩——分類准確率降低,聚類質量下降
維歸約目的
1、避免維災難
2、降低數據挖掘算法的時間和內存消耗
3、使數據更容易可視化
4、能刪除不相關的特征並降低噪聲
PCA是無監督學習, 不考慮標記信息
目標是找到捕獲數據中最大變化的投影
目的:數據降維、去噪,提取最有價值的信息(基於方差)
思想:將原始的高維(如維度為N)數據向一個較低維度(如維度為K)的空間投影,同時使得數據之間的區分度變大(找一個最好的軸,它的方差越大,使數據能分的越開)。這K維空間的每一個維度的基向量(坐標)就是一個主成分
把數據變換到一組新的基上,得到了新的特征的表達
問題:如何找到這K個主成分?
思路:使用方差信息,若在一個方向上發現數據分布的方差越大,則說明該投影方向越能體現數據中的主要信息。該投影方向即應當是一個主成分
LDA的目標是在保留盡可能多的類區分信息的同時進行降維.
PCA,它所作的只是將整組數據整體映射到最方便表示這組數據的坐標軸上,映射時沒有利用任何數據內部的分類信息。因此,雖然做了PCA后,整組數據在表示上更加方便(降低了維數並將信息損失降到最低),但在分類上也許會變得更加困難;LDA,在增加了分類信息之后,兩組輸入映射到了另外一個坐標軸上,有了這樣一個映射,兩組數據之間的就變得更易區分了(在低維上就可以區分,減少了很大的運算量)。
所以PCA和LDA雖然都用到數據降維的思想,但是監督方式不一樣,目的也不一樣。PCA是為了去除原始數據集中冗余的維度,讓投影子空間的各個維度的方差盡可能大,也就是熵盡可能大。LDA是通過數據降維找到那些具有discriminative的維度,使得原始數據在這些維度上的投影,不同類別盡可能區分開來。
LDA的原理是,將帶上標簽的數據(點),通過投影的方法,投影到維度更低的空間中,使得投影后的點,會形成按類別區分,一簇一簇的情況,相同類別的點,將會在投影后的空間中更接近。
決策樹的生成由兩個階段組成
• 決策樹構建
• 開始時,所有的訓練樣本都在根節點
• 遞歸的通過選定的屬性,來划分樣本 (必須是離散值)
• 樹剪枝
• 許多分枝反映的是訓練數據中的噪聲和孤立點,樹剪枝試圖檢
測和剪去這種分枝,防止過擬合。因為在決策樹學習中,為了盡可能正確的分類訓練樣本,結點划分過程將不斷重復,有時會造成決策樹分枝過多,,訓練數據擬合的太好,訓練樣本把自身的一些特點當做所有數據都有的一般性質而導致過擬合。
• 當決策樹很小時,訓練和檢驗誤差都很大,這種情況稱為模型擬合不足。出
現擬合不足的原因是模型尚未學習到數據的真實結構。
• 隨着決策樹中結點數的增加,模型的訓練誤差和檢驗誤差都會隨之下降。
• 當樹的規模變得太大時,即使訓練誤差還在繼續降低,但是檢驗誤差開始增
大,導致模型過分擬合
ID3 使用信息增益,它偏向於取值數目較多的屬性
C4.5 對連續屬性離散化,算法產生的分類規則易於理解,准確率高
但效率低,因為構造過程中許多次對數據集進行順序掃描和排序
克服了ID3的不足,在樹構造過程中進行剪枝
CART 生成的決策樹分支較大,規模大
我們希望決策樹的分支結點所包含的樣本盡可能屬於同一類別,即結點的“純度”越來越高。Ent(D)越小,則D 的純度越高。
信息增益越大,則意味着使用屬性a來進行划分所獲得的純度提升越大
基尼指數Gini(D)反映了從數據集D中隨機抽取兩個樣本,其類別標記不一致的概率,因此Gini(D)越小,則數據集D的純度越高
