聚類分析和判別分析


13聚類分析和判別分析

==================================

聚類分析

什么是聚類分析?

聚類:數據對象的集合

在同一集群內彼此相似

與其他集群中的對象不同

==================================

聚集分析

將一組數據對象分組為群集,即為分組

聚類是無監督的分類:沒有預定義的類。

典型應用

作為了解數據分布的獨立工具。

作為其它算法的預處理步驟

=================================

什么是好的聚類?

良好的聚類方法將產生高質量的簇,

類內相似性

類間相似性

聚類結果的質量取決於相似性度量,即相似性要求高聚類的質量就差。

聚類方法的質量也通過它發現一些或全部隱藏模式的能力來測量,即是否在組中發現隱藏模式如果有隱藏模式則聚類效果差。

====================================

測度聚類質量

不同/相似度量:相似性用距離函數表示,距離函數通常是度量:d(ij)

對於布爾變量、范疇變量、序數變量、區間縮放變量和比率變量,距離函數的定義通常有很大的不同。

權重應該根據應用程序和數據語義與不同的變量相關聯。

很難定義足夠相似足夠好”--答案通常是高度主觀的。

聚類方法

 

 

 

數據結構

數據矩陣

 

 

 

相異矩陣

 

 

 

==========================================

分區算法:基本概念

分區方法:N個對象的數據庫D的分區構造成一組K個簇

給定一個k,找到一個k簇的分區,以優化所選的分區准則。

全局最優:徹底枚舉所有分區

啟發式方法:K-meank-medoid算法

k-means:每個群集由群集的中心表示

K-medoidPAM(圍繞medoid的分區):每個集群由集群中的一個對象表示

==========================================

K-means聚類

基本思路:使用集群中心(表示)表示集群。

將數據元素分配給收斂集群(中心)

目標:盡量減少平方誤差(類內差異)

 

給定kk-均值算法分四個步驟實現:

將對象划分為k個非空子集

計算種子點作為當前分區的群集的質心(質心為中心,即群集的平均點)

 

使用最近的種子點將每個對象分配給群集

回到步驟2,當不再有新的任務時停止

就是在已知要分為4類之后,將K=4,隨便找到4個點,計算每個原始點的到這四個點中心的距離,選擇距離最近的點歸類,這就有4類點,再在這些點內部計算每一點的質心,這就有了新的4個點,再對所有點計算到這四個點的距離,然后比較,以此類推。

 

 

 

================================

流程:

初始化1

指定組k的數目:

例如,k=4

選擇4個點(隨機)

 

 

 

每個點根據4個距離分配到最近的集群。

 

 

 

迭代直到裝置收斂

 

 

============================================

關於k-means方法的評述

優點:相對高效:O(TKN),其中n#對象,k#集群,t#迭代。通常,kt<n

注釋:通常以局部最佳狀態終止。

全局最優的方法包括:確定性退火和遺傳算法。

缺點:

僅在均值被定義時才適用,而不適用於分類數據

需要預先指定k,集群的數目。

無法處理噪聲數據和異常值。

不適合發現具有非凸形狀的簇

=================================================

處理數值數據的方法:k-means

 

 

 

類似於K的聚類方法

一些不同於K-means算法的不同在於

對於原始K-means值的選擇

不同計算

計算集群均值的策略

處理分類數據K-modes

 

用模式替換均值

使用新的不同的措施來處理分類對象。

使用基於頻率的方法來更新群集模式

分類數據和數值數據的混合:K-prototype

 

===========================================

K-medoid聚類方法

在集群中找到有代表性的對象,稱為medoid

PAM圍繞MeDOID進行分區

使用真實對象代表群集,

任意選擇k表示對象

對於每對非選定的對象h和選定的對象i,計算總交換成本TCIDH

對於每對ih,

如果TCIDH<0,則將I替換為H

然后將每個非選定對象分配給最相似的具有代表性的對象。

重復步驟2-3,直到沒有變化

即若K=2,則選擇原始數據中的某兩個點作為原始medoids,計算每個點到該點的距離,形成兩個簇,再選擇一個非之前的點作為medoid,如果花費得到改善則將medoid值替換為改點,如果沒有得到改善則不變。

從一組初始的medoid開始,如果它改善了所產生的聚類的總距離,則迭代地將其中一個medoid替換為非medoid之一

PAM有效地適用於小型數據集,但對於大型數據集,PAM不能很好地進行擴展

CLARA

CLARANS:隨機抽樣

===========================================

PAM的評論

在存在噪聲和異常值的情況下,pamk均值更健壯,因為Medoid受異常值或其他極值的影響小於k-means

PAM有效地適用於小型數據集,但對於大型數據集,PAM不能很好地擴展。

因為迭代次數較多,每個迭代的O(k(n-k)2)

其中n是數據的個數k是簇的個數

===========================================

CLARA集群大型應用程序

它繪制數據集的多個樣本,對每個樣本應用PAM,並給出最佳的聚類作為輸出。

優點:處理比PAM更大的數據集。

劣勢:效率取決於樣本量。

-如果樣本被偏置,則基於樣本的良好聚類不一定代表整個數據集的良好聚類

即將原來的所有樣本划分為更小單元,即單個樣本來進行PAM

=======================================

分層群聚

使用距離矩陣作為聚類准則。此方法不需要將群集k的數目作為輸入,而是需要一個終止條件。

 

給定一組待聚類的項目和NxN距離(或相似度)矩陣,基本過程分層聚類是這樣的:

  1. 首先,將每個項分配給它自己的集群,這樣如果您有N個項,那么您現在就有N個集群,每個集群只包含一個項。
  2. 找到最接近(最相似)的集群,並將它們合並到一個集群中,這樣現在就少了一個集群。
  3. 計算新集群和每個舊集群之間的距離(相似之處)。
  4. 重復步驟2和步驟3,直到所有項目聚集成一個大小為N的集群。

就像哈弗曼樹得到的過程一樣。

========================================

簇間距離

單點距離:點間最小距離

完全點距離:最大點間距離

平均點距離:點間平均距離

質心距離:質心距離

===============================

合並或連接規則-計算距離

================================

距離測量:明可夫斯基度規

假設兩個對象xy都有p特性:

 

 

 

明可夫斯基度規

 

 

=====================================

常用的Minkowski度量

R=2時是歐幾里得距離:

R=1時是曼哈頓距離

R=正無窮是(sup”距離),即數據集合中取最大值。

 

 

 

============================================

當所有特征都是二進制時,曼哈頓距離被稱為Hamming距離。

17個條件下基因表達水平(1-高,0-低)

 

 

 

即二進制的01+10=11=5

=========================================

其他相似指數

權重距離:

Sop距離:

 

內積:

皮爾遜相關系數

斯皮爾曼等級相關系數

==========================================

系統樹圖

一種樹數據結構,它說明了層次聚類技術。

每個級別顯示該級別的群集

葉子-個體群集

-一個群集

i級的群集是i+1群集的聯盟

 

 

 

==========================================

聚類級別

 

 

 

凝聚實例

首先計算各點之間的距離,然后將距離最小的相組合,以此類推,直到根節點。

 

 

 

單鏈路、完全鏈接和平均鏈接群集

 

 

 

 

==========================================================

聚簇分析中的問題

大量的聚類算法

許多距離/相似性度量

哪種聚類算法運行得更快,使用的內存更少

到底有多少

這些簇穩定嗎?

這些集群(簇)有意義嗎?

=======================================================

統計顯着性檢驗不是一個典型的統計測試

聚類分析是不同算法的集合根據定義良好的相似性規則將對象放入聚類

聚類分析方法大多是在沒有先驗假設的情況下使用,但還處於探索階段。

事實上,集群分析發現"最重要的解決方案是可能的。"

統計學顯著性檢驗在此不合適,即使在報告p水平的情況下(如在K-均值聚類中)

========================================

判別分析,判別式分析DA

DA用於通過距離度量來標識對象組之間的邊界。

例如:

一些昆蟲屬於什么種類,屬於一些措施的基礎。

某人是否有良好的信用風險?

學生應該被大學錄取嗎?

類似於回歸,除了標准(或因變量)分類變量的而不是連續變量

可替代地,判別式分析與(MANOVA)相反。

MANOVA:自變量是分類變量的,因變量是連續變量。

Manova中,自變量是群(分類變量),因變量是連續測度。

DA中,自變量是連續測度和因變量是團體(分類變量)。

===========================

DA的原始數據:

 

 

 

目的是讓再來一個數據,據數據結構進行目錄分類。

============================================

線性判別分析

線性判別分析試圖找到最佳分離人口的選定措施的線性組合。

 

 

 

紅色和藍色即已經找到了划分方法。

程序:

判別函數分析分為兩個步驟:

  1. 判別函數集測試顯著性意義,即先看看有沒有限制性差異,再多重比較

第一步驟在計算上與ManoVA相同。存在總方差-協方差矩陣;同樣,存在集合內方差-協方差矩陣。

通過多元F檢驗對這兩個矩陣進行比較,以確定組間是否存在顯著差異(對於所有變量)

首先進行多元檢驗,如果具有統計學意義,則繼續查看哪一個變量在各組中具有顯著不同的均值。

  1. 分類

一旦發現組平均值具有統計學顯著性,就進行變量分類。

判別分析自動確定變量的最優組合,從而使第一個函數提供最全面的變量組合。

群體間的區別,第二種提供第二全面,以此類推。

此外,這些職能將是獨立的或正交的,也就是說,它們對群體之間的歧視的貢獻不會重疊。

此外,這些函數將是獨立的或正交的,也就是說,它們對群體之間的歧視的貢獻不會重疊

=========================================

假定前提

樣本量:即薯豎條型變量。

可接受不同的樣本尺寸。最小組的樣本大小需要超過預測變量的數量。作為經驗法則,最小的樣本大小應該是 對於幾個(45)的預測因子,至少會有20。自變量的最大數目是n-2,其中n是樣本的大小.雖然這種低樣本量可能有效,但不鼓勵這樣做,而且通常最好是有45倍的觀察和獨立變量

正態分布:

假設數據(對於變量)表示來自多元正態分布的樣本。您可以檢查變量是否通常分布有頻率分布的直方圖。 然而,請注意,違反正態假設並不是致命的,只要非正態是由偏斜而非異常引起的,則由此產生的顯着性檢驗仍然是可靠的。

方差/協方差的同質性

判別分析對方差協方差矩陣的異質性非常敏感。在接受重要研究的最終結論之前,最好先回顧一下組內方差和相關矩陣。同步性通過散射圖進行評估,並通過變量變換加以修正。

=================================================

極端值

判別分析對離群點的包含非常敏感

運行每個組的單變量和多變量異常值的測試,並對其進行轉換或消除。

如果一項研究中的一組包含影響平均值的極端離群值,則它們也會增加變異性。總體顯着性測試基於集合方差,即所有組之間的平均方差。因此,相對較大的均值(具有較大的方差)的顯着性檢驗將基於相對較小的集合方差,從而導致錯誤的統計顯着性。即方差和均值都比實際情況要大。

 

非線性:

如果其中一個自變量與另一個獨立變量高度相關,或者一個是其他獨立變量的函數(例如和),那么矩陣就沒有唯一的判別解。

在獨立凹坑相關的程度上,標准化的鑒別函數系數將不能可靠地評估預測變量的相對重要性。既沒有偏相關系數這一類的函數來評估。

============================================================

判別分析與聚類

判別分析:

已知的類數量

基於訓練集

用於對未來的觀測進行分類

 

分類是監督學習的一種形式

Y =X1 + X2 + X3

聚類

未知類數

無先驗知識

用於理解(探索)數據

聚類是一種無監督學習形式。

X1 + X2 + X3


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM