聚類分析和判別分析

本文轉載自查看原文 2019-12-11 20:48 286 生物統計學/ statistics

13聚類分析和判別分析

==================================

聚類分析

什么是聚類分析？

聚類：數據對象的集合

在同一集群內彼此相似

與其他集群中的對象不同

==================================

聚集分析

將一組數據對象分組為群集，即為分組

聚類是無監督的分類：沒有預定義的類。

典型應用

作為了解數據分布的獨立工具。

作為其它算法的預處理步驟

=================================

什么是好的聚類？

良好的聚類方法將產生高質量的簇,

簇類內相似性

簇類間相似性

聚類結果的質量取決於相似性度量，即相似性要求高聚類的質量就差。

聚類方法的質量也通過它發現一些或全部隱藏模式的能力來測量，即是否在組中發現隱藏模式如果有隱藏模式則聚類效果差。

====================================

測度聚類質量

不同/相似度量：相似性用距離函數表示，距離函數通常是度量：d(i，j)

對於布爾變量、范疇變量、序數變量、區間縮放變量和比率變量，距離函數的定義通常有很大的不同。

權重應該根據應用程序和數據語義與不同的變量相關聯。

很難定義“足夠相似”或“足夠好”--答案通常是高度主觀的。

聚類方法

數據結構

數據矩陣

相異矩陣

==========================================

分區算法:基本概念

分區方法:將N個對象的數據庫D的分區構造成一組K個簇

給定一個k，找到一個k簇的分區，以優化所選的分區准則。

全局最優：徹底枚舉所有分區

啟發式方法：K-mean和k-medoid算法

k-means：每個群集由群集的中心表示

K-medoid或PAM(圍繞medoid的分區)：每個集群由集群中的一個對象表示

==========================================

K-means聚類

基本思路：使用集群中心（表示）表示集群。

將數據元素分配給收斂集群(中心)

目標：盡量減少平方誤差（類內差異）

給定k，k-均值算法分四個步驟實現：

將對象划分為k個非空子集

計算種子點作為當前分區的群集的質心（質心為中心，即群集的平均點）

使用最近的種子點將每個對象分配給群集

回到步驟2，當不再有新的任務時停止

就是在已知要分為4類之后，將K=4，隨便找到4個點，計算每個原始點的到這四個點中心的距離，選擇距離最近的點歸類，這就有4類點，再在這些點內部計算每一點的質心，這就有了新的4個點，再對所有點計算到這四個點的距離，然后比較，以此類推。

================================

流程：

初始化1

指定組k的數目：

例如,k=4

選擇4個點（隨機）

每個點根據4個距離分配到最近的集群。

迭代直到裝置收斂

============================================

關於k-means方法的評述

優點：相對高效：O(TKN)，其中n是#對象，k是#集群，t是#迭代。通常，k，t<n

注釋：通常以局部最佳狀態終止。

全局最優的方法包括：確定性退火和遺傳算法。

缺點：

僅在均值被定義時才適用，而不適用於分類數據。

需要預先指定k，集群的數目。

無法處理噪聲數據和異常值。

不適合發現具有非凸形狀的簇

=================================================

處理數值數據的方法：k-means

類似於K的聚類方法

一些不同於K-means算法的不同在於

對於原始K-means值的選擇

不同計算

計算集群均值的策略

處理分類數據：K-modes

用模式替換均值

使用新的不同的措施來處理分類對象。

使用基於頻率的方法來更新群集模式

分類數據和數值數據的混合：K-prototype

===========================================

K-medoid聚類方法

在集群中找到有代表性的對象，稱為medoid。

PAM圍繞MeDOID進行分區

使用真實對象代表群集，

任意選擇k表示對象

對於每對非選定的對象h和選定的對象i，計算總交換成本TCIDH。

對於每對i和h,

如果TCIDH<0，則將I替換為H

然后將每個非選定對象分配給最相似的具有代表性的對象。

重復步驟2-3，直到沒有變化

即若K=2，則選擇原始數據中的某兩個點作為原始medoids，計算每個點到該點的距離，形成兩個簇，再選擇一個非之前的點作為medoid，如果花費得到改善則將medoid值替換為改點，如果沒有得到改善則不變。

從一組初始的medoid開始，如果它改善了所產生的聚類的總距離，則迭代地將其中一個medoid替換為非medoid之一。

PAM有效地適用於小型數據集，但對於大型數據集，PAM不能很好地進行擴展。

CLARA

CLARANS：隨機抽樣

===========================================

對PAM的評論

在存在噪聲和異常值的情況下，pam比k均值更健壯，因為Medoid受異常值或其他極值的影響小於k-means。

PAM有效地適用於小型數據集，但對於大型數據集，PAM不能很好地擴展。

因為迭代次數較多，每個迭代的O(k(n-k)2)。

其中n是數據的個數，k是簇的個數。

===========================================

CLARA集群大型應用程序

它繪制數據集的多個樣本，對每個樣本應用PAM，並給出最佳的聚類作為輸出。

優點：處理比PAM更大的數據集。

劣勢：效率取決於樣本量。

-如果樣本被偏置，則基於樣本的良好聚類不一定代表整個數據集的良好聚類

即將原來的所有樣本划分為更小單元，即單個樣本來進行PAM

=======================================

分層群聚

使用距離矩陣作為聚類准則。此方法不需要將群集k的數目作為輸入，而是需要一個終止條件。

給定一組待聚類的項目和NxN距離(或相似度)矩陣，基本過程分層聚類是這樣的：

首先，將每個項分配給它自己的集群，這樣如果您有N個項，那么您現在就有N個集群，每個集群只包含一個項。
找到最接近(最相似)的集群，並將它們合並到一個集群中，這樣現在就少了一個集群。
計算新集群和每個舊集群之間的距離（相似之處）。
重復步驟2和步驟3，直到所有項目聚集成一個大小為N的集群。

就像哈弗曼樹得到的過程一樣。

========================================

簇間距離

單點距離：點間最小距離

完全點距離：最大點間距離

平均點距離：點間平均距離

質心距離：質心距離

===============================

合並或連接規則-計算距離

================================

距離測量：明可夫斯基度規

假設兩個對象（x和y）都有p個特性：

明可夫斯基度規為

=====================================

常用的Minkowski度量

R=2時是歐幾里得距離：

R=1時是曼哈頓距離

R=正無窮是(“sup”距離)，即數據集合中取最大值。

============================================

當所有特征都是二進制時，曼哈頓距離被稱為Hamming距離。

17個條件下基因表達水平（1-高，0-低）

即二進制的01+10=11=5

=========================================

其他相似指數

權重距離：

Sop距離：

內積：

皮爾遜相關系數

斯皮爾曼等級相關系數

==========================================

系統樹圖

一種樹數據結構，它說明了層次聚類技術。

每個級別顯示該級別的群集

葉子-個體群集

根-一個群集

i級的群集是i+1級子群集的聯盟

==========================================

聚類級別

凝聚實例

首先計算各點之間的距離，然后將距離最小的相組合，以此類推，直到根節點。

單鏈路、完全鏈接和平均鏈接群集

==========================================================

聚簇分析中的問題

大量的聚類算法

許多距離/相似性度量

哪種聚類算法運行得更快，使用的內存更少

到底有多少簇？

這些簇穩定嗎？

這些集群（簇）有意義嗎？

=======================================================

統計顯着性檢驗不是一個典型的統計測試

聚類分析是不同算法的“集合”，“根據定義良好的相似性規則將對象放入聚類”。

聚類分析方法大多是在沒有先驗假設的情況下使用，但還處於探索階段。

事實上，集群分析發現"最重要的解決方案是可能的。"

統計學顯著性檢驗在此不合適，即使在報告p水平的情況下（如在K-均值聚類中）

========================================

判別分析，判別式分析DA

DA用於通過距離度量來標識對象組之間的邊界。

例如：

一些昆蟲屬於什么種類，屬於一些措施的基礎。

某人是否有良好的信用風險？

學生應該被大學錄取嗎？

類似於回歸，除了標准(或因變量)是分類變量的而不是連續變量的。

可替代地，判別式分析與(MANOVA)相反。

MANOVA：自變量是分類變量的，因變量是連續變量。

在Manova中，自變量是群（分類變量），因變量是連續測度。

在DA中，自變量是連續測度和因變量是團體（分類變量）。

===========================

DA的原始數據：

目的是讓再來一個數據，據數據結構進行目錄分類。

============================================

線性判別分析

線性判別分析試圖找到最佳分離人口的選定措施的線性組合。

紅色和藍色即已經找到了划分方法。

程序：

判別函數分析分為兩個步驟：

判別函數集測試顯著性意義，即先看看有沒有限制性差異，再多重比較

第一步驟在計算上與ManoVA相同。存在總方差-協方差矩陣；同樣，存在集合內方差-協方差矩陣。

通過多元F檢驗對這兩個矩陣進行比較，以確定組間是否存在顯著差異(對於所有變量)。

首先進行多元檢驗，如果具有統計學意義，則繼續查看哪一個變量在各組中具有顯著不同的均值。

分類

一旦發現組平均值具有統計學顯著性，就進行變量分類。

判別分析自動確定變量的最優組合，從而使第一個函數提供最全面的變量組合。

群體間的區別，第二種提供第二全面，以此類推。

此外，這些職能將是獨立的或正交的，也就是說，它們對群體之間的歧視的貢獻不會重疊。

此外，這些函數將是獨立的或正交的，也就是說，它們對群體之間的歧視的貢獻不會重疊。

=========================================

假定前提

樣本量：即薯豎條型變量。

可接受不同的樣本尺寸。最小組的樣本大小需要超過預測變量的數量。作為“經驗法則”，最小的樣本大小應該是對於幾個(4或5)的預測因子，至少會有20。自變量的最大數目是n-2，其中n是樣本的大小.雖然這種低樣本量可能有效，但不鼓勵這樣做，而且通常它最好是有4或5倍的觀察和獨立變量。

正態分布：

假設數據(對於變量)表示來自多元正態分布的樣本。您可以檢查變量是否通常分布有頻率分布的直方圖。然而，請注意，違反正態假設並不是“致命的”，只要非正態是由偏斜而非異常引起的，則由此產生的顯着性檢驗仍然是可靠的。

方差/協方差的同質性

判別分析對方差協方差矩陣的異質性非常敏感。在接受重要研究的最終結論之前，最好先回顧一下組內方差和相關矩陣。同步性通過散射圖進行評估，並通過變量變換加以修正。

=================================================

極端值

判別分析對離群點的包含非常敏感。

運行每個組的單變量和多變量異常值的測試，並對其進行轉換或消除。

如果一項研究中的一組包含影響平均值的極端離群值，則它們也會增加變異性。總體顯着性測試基於集合方差，即所有組之間的平均方差。因此，相對較大的均值（具有較大的方差）的顯着性檢驗將基於相對較小的集合方差，從而導致錯誤的統計顯着性。即方差和均值都比實際情況要大。

非線性：

如果其中一個自變量與另一個獨立變量高度相關，或者一個是其他獨立變量的函數(例如和)，那么矩陣就沒有唯一的判別解。

在獨立凹坑相關的程度上，標准化的鑒別函數系數將不能可靠地評估預測變量的相對重要性。既沒有偏相關系數這一類的函數來評估。

============================================================

判別分析與聚類

判別分析：

已知的類數量

基於訓練集

用於對未來的觀測進行分類

分類是監督學習的一種形式

Y =X1 + X2 + X3

聚類：

未知類數

無先驗知識

用於理解(探索)數據

聚類是一種無監督學習形式。

X1 + X2 + X3

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 聚類分析與判別分析的區別與聯系判別分析 LDA 線性判別分析線性判別分析（LDA）線性判別分析LDA 判別分析--線性判別分析（LDA） SPSS聚類分析 LDA（線性判別分析） Fisher線性判別分析聚類分析詳解