13聚類分析和判別分析
==================================
聚類分析
什么是聚類分析?
聚類:數據對象的集合
在同一集群內彼此相似
與其他集群中的對象不同
==================================
聚集分析
將一組數據對象分組為群集,即為分組
聚類是無監督的分類:沒有預定義的類。
典型應用
作為了解數據分布的獨立工具。
作為其它算法的預處理步驟
=================================
什么是好的聚類?
良好的聚類方法將產生高質量的簇,
簇類內相似性
簇類間相似性
聚類結果的質量取決於相似性度量,即相似性要求高聚類的質量就差。
聚類方法的質量也通過它發現一些或全部隱藏模式的能力來測量,即是否在組中發現隱藏模式如果有隱藏模式則聚類效果差。
====================================
測度聚類質量
不同/相似度量:相似性用距離函數表示,距離函數通常是度量:d(i,j)
對於布爾變量、范疇變量、序數變量、區間縮放變量和比率變量,距離函數的定義通常有很大的不同。
權重應該根據應用程序和數據語義與不同的變量相關聯。
很難定義“足夠相似”或“足夠好”--答案通常是高度主觀的。
聚類方法
數據結構
數據矩陣
相異矩陣
==========================================
分區算法:基本概念
分區方法:將N個對象的數據庫D的分區構造成一組K個簇
給定一個k,找到一個k簇的分區,以優化所選的分區准則。
全局最優:徹底枚舉所有分區
啟發式方法:K-mean和k-medoid算法
k-means:每個群集由群集的中心表示
K-medoid或PAM(圍繞medoid的分區):每個集群由集群中的一個對象表示
==========================================
K-means聚類
基本思路:使用集群中心(表示)表示集群。
將數據元素分配給收斂集群(中心)
目標:盡量減少平方誤差(類內差異)
給定k,k-均值算法分四個步驟實現:
將對象划分為k個非空子集
計算種子點作為當前分區的群集的質心(質心為中心,即群集的平均點)
使用最近的種子點將每個對象分配給群集
回到步驟2,當不再有新的任務時停止
就是在已知要分為4類之后,將K=4,隨便找到4個點,計算每個原始點的到這四個點中心的距離,選擇距離最近的點歸類,這就有4類點,再在這些點內部計算每一點的質心,這就有了新的4個點,再對所有點計算到這四個點的距離,然后比較,以此類推。
================================
流程:
初始化1
指定組k的數目:
例如,k=4
選擇4個點(隨機)
每個點根據4個距離分配到最近的集群。
迭代直到裝置收斂
============================================
關於k-means方法的評述
優點:相對高效:O(TKN),其中n是#對象,k是#集群,t是#迭代。通常,k,t<n
注釋:通常以局部最佳狀態終止。
全局最優的方法包括:確定性退火和遺傳算法。
缺點:
僅在均值被定義時才適用,而不適用於分類數據。
需要預先指定k,集群的數目。
無法處理噪聲數據和異常值。
不適合發現具有非凸形狀的簇
=================================================
處理數值數據的方法:k-means
類似於K的聚類方法
一些不同於K-means算法的不同在於
對於原始K-means值的選擇
不同計算
計算集群均值的策略
處理分類數據:K-modes
用模式替換均值
使用新的不同的措施來處理分類對象。
使用基於頻率的方法來更新群集模式
分類數據和數值數據的混合:K-prototype
===========================================
K-medoid聚類方法
在集群中找到有代表性的對象,稱為medoid。
PAM圍繞MeDOID進行分區
使用真實對象代表群集,
任意選擇k表示對象
對於每對非選定的對象h和選定的對象i,計算總交換成本TCIDH。
對於每對i和h,
如果TCIDH<0,則將I替換為H
然后將每個非選定對象分配給最相似的具有代表性的對象。
重復步驟2-3,直到沒有變化
即若K=2,則選擇原始數據中的某兩個點作為原始medoids,計算每個點到該點的距離,形成兩個簇,再選擇一個非之前的點作為medoid,如果花費得到改善則將medoid值替換為改點,如果沒有得到改善則不變。
從一組初始的medoid開始,如果它改善了所產生的聚類的總距離,則迭代地將其中一個medoid替換為非medoid之一。
PAM有效地適用於小型數據集,但對於大型數據集,PAM不能很好地進行擴展。
CLARA
CLARANS:隨機抽樣
===========================================
對PAM的評論
在存在噪聲和異常值的情況下,pam比k均值更健壯,因為Medoid受異常值或其他極值的影響小於k-means。
PAM有效地適用於小型數據集,但對於大型數據集,PAM不能很好地擴展。
因為迭代次數較多,每個迭代的O(k(n-k)2)。
其中n是數據的個數,k是簇的個數。
===========================================
CLARA集群大型應用程序
它繪制數據集的多個樣本,對每個樣本應用PAM,並給出最佳的聚類作為輸出。
優點:處理比PAM更大的數據集。
劣勢:效率取決於樣本量。
-如果樣本被偏置,則基於樣本的良好聚類不一定代表整個數據集的良好聚類
即將原來的所有樣本划分為更小單元,即單個樣本來進行PAM
=======================================
分層群聚
使用距離矩陣作為聚類准則。此方法不需要將群集k的數目作為輸入,而是需要一個終止條件。
給定一組待聚類的項目和NxN距離(或相似度)矩陣,基本過程分層聚類是這樣的:
- 首先,將每個項分配給它自己的集群,這樣如果您有N個項,那么您現在就有N個集群,每個集群只包含一個項。
- 找到最接近(最相似)的集群,並將它們合並到一個集群中,這樣現在就少了一個集群。
- 計算新集群和每個舊集群之間的距離(相似之處)。
- 重復步驟2和步驟3,直到所有項目聚集成一個大小為N的集群。
就像哈弗曼樹得到的過程一樣。
========================================
簇間距離
單點距離:點間最小距離
完全點距離:最大點間距離
平均點距離:點間平均距離
質心距離:質心距離
===============================
合並或連接規則-計算距離
================================
距離測量:明可夫斯基度規
假設兩個對象(x和y)都有p個特性:
明可夫斯基度規為
=====================================
常用的Minkowski度量
R=2時是歐幾里得距離:
R=1時是曼哈頓距離
R=正無窮是(“sup”距離),即數據集合中取最大值。
============================================
當所有特征都是二進制時,曼哈頓距離被稱為Hamming距離。
17個條件下基因表達水平(1-高,0-低)
即二進制的01+10=11=5
=========================================
其他相似指數
權重距離:
Sop距離:
內積:
皮爾遜相關系數
斯皮爾曼等級相關系數
==========================================
系統樹圖
一種樹數據結構,它說明了層次聚類技術。
每個級別顯示該級別的群集
葉子-個體群集
根-一個群集
i級的群集是i+1級子群集的聯盟
==========================================
聚類級別
凝聚實例
首先計算各點之間的距離,然后將距離最小的相組合,以此類推,直到根節點。
單鏈路、完全鏈接和平均鏈接群集
==========================================================
聚簇分析中的問題
大量的聚類算法
許多距離/相似性度量
哪種聚類算法運行得更快,使用的內存更少
到底有多少簇?
這些簇穩定嗎?
這些集群(簇)有意義嗎?
=======================================================
統計顯着性檢驗不是一個典型的統計測試
聚類分析是不同算法的“集合”,“根據定義良好的相似性規則將對象放入聚類”。
聚類分析方法大多是在沒有先驗假設的情況下使用,但還處於探索階段。
事實上,集群分析發現"最重要的解決方案是可能的。"
統計學顯著性檢驗在此不合適,即使在報告p水平的情況下(如在K-均值聚類中)
========================================
判別分析,判別式分析DA
DA用於通過距離度量來標識對象組之間的邊界。
例如:
一些昆蟲屬於什么種類,屬於一些措施的基礎。
某人是否有良好的信用風險?
學生應該被大學錄取嗎?
類似於回歸,除了標准(或因變量)是分類變量的而不是連續變量的。
可替代地,判別式分析與(MANOVA)相反。
MANOVA:自變量是分類變量的,因變量是連續變量。
在Manova中,自變量是群(分類變量),因變量是連續測度。
在DA中,自變量是連續測度和因變量是團體(分類變量)。
===========================
DA的原始數據:
目的是讓再來一個數據,據數據結構進行目錄分類。
============================================
線性判別分析
線性判別分析試圖找到最佳分離人口的選定措施的線性組合。
紅色和藍色即已經找到了划分方法。
程序:
判別函數分析分為兩個步驟:
- 判別函數集測試顯著性意義,即先看看有沒有限制性差異,再多重比較
第一步驟在計算上與ManoVA相同。存在總方差-協方差矩陣;同樣,存在集合內方差-協方差矩陣。
通過多元F檢驗對這兩個矩陣進行比較,以確定組間是否存在顯著差異(對於所有變量)。
首先進行多元檢驗,如果具有統計學意義,則繼續查看哪一個變量在各組中具有顯著不同的均值。
- 分類
一旦發現組平均值具有統計學顯著性,就進行變量分類。
判別分析自動確定變量的最優組合,從而使第一個函數提供最全面的變量組合。
群體間的區別,第二種提供第二全面,以此類推。
此外,這些職能將是獨立的或正交的,也就是說,它們對群體之間的歧視的貢獻不會重疊。
此外,這些函數將是獨立的或正交的,也就是說,它們對群體之間的歧視的貢獻不會重疊。
=========================================
假定前提
樣本量:即薯豎條型變量。
可接受不同的樣本尺寸。最小組的樣本大小需要超過預測變量的數量。作為“經驗法則”,最小的樣本大小應該是 對於幾個(4或5)的預測因子,至少會有20。自變量的最大數目是n-2,其中n是樣本的大小.雖然這種低樣本量可能有效,但不鼓勵這樣做,而且通常它最好是有4或5倍的觀察和獨立變量。
正態分布:
假設數據(對於變量)表示來自多元正態分布的樣本。您可以檢查變量是否通常分布有頻率分布的直方圖。 然而,請注意,違反正態假設並不是“致命的”,只要非正態是由偏斜而非異常引起的,則由此產生的顯着性檢驗仍然是可靠的。
方差/協方差的同質性
判別分析對方差協方差矩陣的異質性非常敏感。在接受重要研究的最終結論之前,最好先回顧一下組內方差和相關矩陣。同步性通過散射圖進行評估,並通過變量變換加以修正。
=================================================
極端值
判別分析對離群點的包含非常敏感。
運行每個組的單變量和多變量異常值的測試,並對其進行轉換或消除。
如果一項研究中的一組包含影響平均值的極端離群值,則它們也會增加變異性。總體顯着性測試基於集合方差,即所有組之間的平均方差。因此,相對較大的均值(具有較大的方差)的顯着性檢驗將基於相對較小的集合方差,從而導致錯誤的統計顯着性。即方差和均值都比實際情況要大。
非線性:
如果其中一個自變量與另一個獨立變量高度相關,或者一個是其他獨立變量的函數(例如和),那么矩陣就沒有唯一的判別解。
在獨立凹坑相關的程度上,標准化的鑒別函數系數將不能可靠地評估預測變量的相對重要性。既沒有偏相關系數這一類的函數來評估。
============================================================
判別分析與聚類
判別分析:
已知的類數量
基於訓練集
用於對未來的觀測進行分類
分類是監督學習的一種形式
Y =X1 + X2 + X3
聚類:
未知類數
無先驗知識
用於理解(探索)數據
聚類是一種無監督學習形式。
X1 + X2 + X3