聚類分析與判別分析的區別與聯系


背景

松哥常言統計分三級:“初級說一說,中級比一比,高級找關系”;今天所言之題,即為高級找關系之一法。聚類與判別,所謂天下合久必分、分久必合,合則聚類,分則判別。

1.聚類分析

根據研究對象特征對研究對象進行分類的一種多元分析技術, 把性質相近的個體歸為一類, 使得同一類中的個體都具有高度的同質性, 不同類之間的個體具有高度的異質性。根據分類對象的不同分為樣品聚類(Q聚類)和變量聚類(R)。現實研究中個案聚類常用哦

2.判別分析

根據一定量案例的一個分組變量和相應的其他多元變量的已知信息, 確定分組與其他多元變量之間的數量關系, 建立判別函數, 然后便可以利用這一數量關系對其他未知分組類型所屬的案例進行判別分組。

判別分析中的因變量或判別准則是定類變量, 而自變量或預測變量基本上是定距變量。依據判別類型的多少與方法不同, 分為多類判別和逐級判別。判別分析的過程是通過建立自變量的線性組合(或其他非線性函數), 使之能最佳地區分因變量的各個類別。

3.區別與聯系

1、基本思想不同

( 1) 聚類分析的基本思想

根據相似性( 親疏關系),具體找出一些能夠度量樣品或指標之間相似程度的統計量, 把一些相似程度較大的樣品( 或指標) 聚合為一類, 把另外一些相似程度較大的樣品( 或指標) 又聚合為另一類; 關系密切的聚合到一個小的分類單位, 關系疏遠的聚合到一個大的分類單位, 直到把所有的樣品(或指標)聚合完畢。

( 2) 判別分析的基本思想

對已知分類的數據建立由數值指標構成的分類規則即判別函數, 然后把這樣的規則應用到未知分類的樣本去分類。

2.研究目的不同

雖然都是研究分類的,但在進行聚類分析前,對總體到底有幾種類型不知道(研究分幾類較為合適需從計算中加以調整)。判別分析則是在總體類型划分已知,對當前新樣本判斷它們屬於哪個總體。

3.聚類分析分兩種:Q型聚類(對樣本的聚類),R型聚類(對變量的聚類)

聚類分析需要注意的是,一般小樣本數據可以用系統聚類法,大樣本數據一般用快速聚類法(K均值聚類法),當研究因素既有分類變量又有計量變量,可以用兩步聚類。

3.判別分析

有Fisher判別,Bayes判別和逐步判別。一般用Fisher判別即可,要考慮概率及誤判損失最小的用Bayes判別,但變量較多時,一般先進行逐步判別篩選出有統計意義的變量,再結合實際情況選擇用哪種判別方法。

松哥統計說

聚類為找相似,“物以類聚”;判別是發現不同“人以群分”;

在聚類之前,不知道會聚成幾類,而在判別之前,已經知道將會判別為幾類。

聚類是沒有方程的,判別有方程的;

兩者有時聯合應用的,如先聚類,根據專業確定幾類,然后建立判別模型進行判別。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM