之前給大家寫了很多潛在類別分析的教程Mplus教程:如何做潛在類別分析LCA R數據分析:用R語言做潛類別分析LCA Mplus數據分析:潛在類別分析(LCA)流程(詳細版) R數據分析:再寫潛在類別分析LCA的做法與解釋,今天繼續給大家拓展一步。
今天要介紹的就是潛在轉換分析,這個東西就是LCA的縱向版本。是一個專門用來研究質變的統計技巧。有一句話叫做量變起質變,你怎么知道質變到底發生沒有?就用潛在轉換分析。
Latent transition analysis is an extension of LCA in which you estimate the probabilities of transitions among behavior patterns over time.
潛在轉換分析latent transition analysis (LTA)
潛在轉換分析是潛在類別分析的縱向版,縱向研究設計的目的之一就是看變化,相應的,潛在轉換分析就是用來看潛類別的變化的。
我們再來回憶一張圖:

上圖中我們知道根據潛變量是分類還是連續的,我們可以有潛在剖面分析和潛在類別分析,現在把這兩個東西都放在縱向數據中,相應地,我們就有潛增長模型Latent growth model,潛在轉換分析Latent transition analysis
所以,大家記住:
我們要研究潛剖面(潛變量為連續變量)的變化,就用潛增長模型
我們要研究潛類別(潛變量為分類變量)的變化,就用潛在轉換分析
那么,現在看一個潛在轉換分析的定義了:
LTA is a longitudinal extension of latent class models and enables the investigator to model a dynamic, or changing, latent variables。
上面這個定義太寬泛,再來看個具體的:
Latent transition analysis (LTA) is a statistical technique that, combining cross-sectional measurement of categorical latent variables and longitudinal description of change, comprises three methodological aspects: (1) a person-centered approach; (2) the use of latent categorical variables; and (3) a longitudinal design
這個就很具體了,所以大家記住潛在轉換分析的3個特點:以人為中心,潛類別和縱向設計。
這個方法特別適合那種隨着時間很可能會發生改變的人的特質,比如認知,隨着時間的推移有的人就從高認知轉換成低認知了,而另外一部分人可能從低認知轉換為高認知....。所以研究這種動態變化的潛變量的質的改變一定記得潛在轉換分析哦。
做潛在轉換分析的時候我們都是從2個潛變量開始做的,因為你要轉換嘛,所以起始類別一定是2,比如我現在想要研究兒童認知發展,我可以在每個時間點都用LCA將兒童划分為K(K≥2)個亞組,但是通過LTA我就可以得到是否隨着時間變化兒童認知會在亞組間移動。
這么一來,問題就來了,你想知道兒童會不會隨着時間從亞組A移動到亞組B,首先你得保證不同時間你測得東西是一樣的吧,就是你在不同時間得到的亞組都是一樣的,所以做潛在轉換分析一定要保證亞組的穩定性。
大家好好理解下這個亞組穩定性:它不是說我時間1的時候某個人在亞組A,時間2的時候還是應該在亞組A,而是時間1的亞組A和時間2的亞組A都是同一個亞組A,亞組的特征不變!
上面的話一定要好好理解。
一個完整的LTA需要我們報告3個參數,其中兩個和LCA一樣,一個是變量響應概率另一個是亞組比例latent class prevalences and item-response probabilities。第三個參數便是轉換概率transition probabilities,很好理解,就是時間1時候的亞組轉換到時間2不同亞組的概率。
另外,LTA根據你是否有理論基礎可以是驗證性的,也可以是探索性,還可以加入協變量和遠端結局變量,具體請往下看。
潛在轉換分析五步法
潛在轉換分析的做法可以分為五步,這5步法是Nylund (2007)提出來的,這個我給大家做做簡單介紹,具體請參考本文末尾的參考文獻:
- 第1步確定每個時間點的LCA模型
這一步是給每個時間點都做LCA,如果你有很好的理論支持你就可以提前設定潛類別的個數,如果沒有的話就一個一個試。
- 第2步根據橫斷面結果探索轉換趨勢
我們在第1步的時候已經給每個時間點都做了LCA,那么在第二步就可以來看不同時間點潛類別的轉換情況。就是說模型會給我們輸出每個個體在每個時間點最有可能屬於的潛類別,這個叫做modal class assignment (mcaPk)。
有了這個我們就可以給不同時間點的模型做一個交叉表格出來探索轉換趨勢。
- 第3步
測量不變性評估過后就可以在模型中加上自回歸了,探究類別在不同時間點的轉換概率。
- 第4步在模型中加協變量
模型中的協變量既可以是顯變量也可以是潛變量。
- 第5步加入遠端結局變量
遠端結局變量的意思就是潛類別有可能會導致某些結局事件,這個遠端結局變量就是這些結局事件。
實例操練及解釋
依然還是給大家寫一個例子:這個例子關於人的社會發展的,社會學家認為人的成熟有5大特征,分別是:完成教育,經濟獨立,離開父母,結婚,自覺成熟。這5個特征可以有先后,但是是否滿足這5個特征被認為是成熟的標志。
那么我現在就想研究人群的成熟過程,或者叫成熟轉換,就是我想看看隨着時間的變化人群成熟亞組是如何轉換的。
前提假設就是我們認為不同的人的成熟路徑是不一樣的,比如同樣是20歲,有的人有了穩定的工作但是還和父母住在一起,有的人已經結婚養孩子了但是還沒工作,等等。而且這些特征都會隨着時間變化或者轉化。這顯然是一個以人為中心的研究,我們就考慮一波LTA,就是說我不光要看不同時間點人的成熟情況,我還要看隨着時間的變化這中情況又是如何變化的。
不止如此,我還想看是什么因素造成了人的不同的成熟情況(模型加協變量)還有這個成熟情況的不同又會導致什么(模型加遠端結局)
現在我假設一個變量,叫做經濟水平(FWB),就是說經濟水平和成熟過程的變化(成熟類型AC)是有交叉因果的,具體地,我們認為:時間點1的經濟水平會影響影響時間點2的成熟類型,同樣地,時間點1的成熟類型也會影響時間點2的經濟水平還時間點3的經濟水平。

在上面的示意圖中,FWB1 and FWB2是兩次數據收集過程中的協變量,FWB1會影響時點2的成熟類型AC2,FWB2則是AC1的結局。不同時點有自回歸,相同時點有相關,這個就是一個典型的交叉滯后面板設計,見R數據分析:交叉滯后模型非專業解釋 文獻解讀:縱向數據的測量不變性和交叉滯后模型(一) 文獻解讀:縱向數據的測量不變性和交叉滯后模型(二)
好,我們放在一個具體的研究中來解釋做LTA的0到5步,我們是用了5個顯變量做成熟類型的LCA,以FWB為協變量和結局變量:
第0步:
上面寫了,第一步是描述統計,下圖便是做LCA的顯變量的描述統計結果:

下圖便是我們的協變量和結局變量FWB的描述,這兒FWB會以潛變量進入模型,所以大家會看到顯潛兩個描述:

第1步
上面也說了這一步是給每個時間點都做LCA,下面的圖便是在時間點1做的不同類別的LCA,共做了5個類別,中擬合指數上看,2類的時候BIC最小,滿足BF大於3而且是最簡潔的模型,cmP最大,3類的時候stdres小於5%而且最簡潔,LMR-LRT和BLRT檢驗均顯著,說明3類顯著地比2類擬合更好,並且3類時AIC最小。綜上最有可能成立的模型便是2或者3類。

所以我們就只把2類和3類拎出來進行分類診斷:

解釋一下診斷結果:2類3類其實都不錯,兩個類別中mcaPk (class assignment proportion)均落入了πk (called class proportion)的置信區間之內,avePPk (average posterior probability)都超過了0.7的界值。但是從熵值上看3類時要好一點,OCCk( odd of correct classification)的值也更加好(OCCk的界值為5,越大越好)。所以我們最終確定3類為時間點1的最佳類別數量。見下圖:

看上圖的第一類:在時間點1,在這一類中基本上所有的人都沒有進入成熟角色,37%的人主觀上認為自己是成人。
第二類:在時間點1,這一類中離開父母的比例賊高,但是其它的成人角色就很低。
第三類:在時間點1,這一類中除了教育沒完成,其他成熟指標都挺高。
以上就是時間點1的時候人群的潛類別狀態。
同樣的,我們在時間點2的數據中重復上面的步驟得到結果:


結果的概率圖示如下圖:

第二步
從上圖中就可以看到,雖然類別數量依然是3類,但是各個潛類別的比例是不一樣的。所以我們列出來時間點1和時間點2的類別比例的交叉表瞅瞅:通過這個表我們就可以大概知道不同時間點類別的轉換了,這個就體現了縱向數據的威力,這個表大家只看右半邊就行,因為我們是按照成熟程度由低到高排列的類別123,所以我們的前提就是類別轉換只可能從1到2而不能反着來。

上表的作用也就是單純的看一看趨勢,是否時點1的類別1在時點2還是同樣特征的類別1呢?我們需要進行測量不變性的評估:
測量不變性Measurement invariance
測量不變性這個問題之前寫交叉之后模型的文章中有詳細的介紹:文獻解讀:縱向數據的測量不變性和交叉滯后模型(一) 文獻解讀:縱向數據的測量不變性和交叉滯后模型(二)
那么具體到LTA,測量不變性指的是每個時間點上每個潛類別的條目響應概率的一致性:
In LTA, the measurement parameters are the item-response probabilities estimated for each class at the different time points (Nylund, 2007).
我們依然是將兩個時間點每個條目的響應概率畫出來

在上圖中可以看出:類別1在兩個時間點在所有成熟指標上的響應概率都很低,時點2的類別1除了教育其余指標也都很低;類別2在兩個時間點“離開父母”這個指標響應概率都很高,其他指標也沒啥變化;類別3在時間1的教育不高,但在時間點2教育的響應概率變高了,兩個時間點其余指標都很高。
這就說明兩次的LCA雖然都將人群分了3類,但是這3類的意義還是有點兒不一致的。
第3步設定LTA模型
接下來我們就要給時間點之間的相同測量加上自回歸了從而來擬合我們的LTA模型了,下圖是兩個時間點不同類別的比例

那么如何描述不同時間點類別的轉換情況呢?
記住一個東西,叫做轉換概率矩陣,就是下圖了。
圖中我們可以看到從時點1的Nothing類別到時點2的ALL類別的轉換概率是0.353

因為我們認為人是不會越來越不成熟的,為了驗證我們這個猜想,我們要用驗證性的方法,就是所我們要把所有的負向轉換路徑的系數設定為0,就是我們不會讓隨着時間推移由類別3變類別2,或者類別2變類別1。然后我們把這個模型和全自由的模型進行對比,看看到底哪個模型才更符合我們的數據,最終我們發現兩個模型確實不一樣,並且負向轉換路徑全部固定為0擬合並不好,說明我們的猜想不成立,就是說會存在負向轉換的人群的。
就如表10所示的那樣:27.5%的人在時間1的成熟水平為only L(只離開父母居住),但是在時間2卻成了Nothing+E(只完成學業),就是說有人在完成學業后又跑回去和父母住一起了。數據顯示是存在這么一種負向轉換方式的,並且實際上也很符合。
第4步在LTA中加協變量
對於我們這個例子我們會認為經濟水平(FWB)和成熟情況會相互影響,這個時候就需要跑一個交叉滯后了

看時點1的經濟水平FWB1是不是對時間2的成熟類型有影響,我們給出下表的轉換概率矩陣結果:下表顯示了有沒有協變量FWB1時不同時點上的類別情況,以及差異。

上表告訴我們:在時點1時類別1和類別2在協變量存在的情況下,在時點2的時候其變為類別2的概率會增加,這就意味着經濟水平高的情況下,類別1更容易轉換成類別2,但是轉換成類別1和3的概率卻在減小。
但是對於時間點1的時候本來就是類別3的人來說,FWB的改變不會顯著的影響時間2的類別轉換,具體的顯著性看下圖:

我們還需要繼續看成熟類型AC對於經濟水平FWB的影響以及不同時間點AC的自回歸,自回歸系數見下圖:

從上圖可以看出來,所有的自回歸系數都不顯著,即時點1的成熟類型對時點2的成熟類型並沒有影響。
當然了還要去看FWB的自回歸以及兩個時點斷面上成熟類型與經濟水平的關系。
這兒就屬於橫斷面上的相關關系了,原文是用AC對FWB進行回歸,結果見下圖:

上面的結果就反映出在時點2上FWB對AC有作用:具體地,就是時間點2時候的經濟水平越高其成為成為Nothing+E和only L組的概率相對於成為“ALL”組的概率越小,白話就是經濟水平越好的人成熟越高(五個指標都好)。
第5步給模型加遠端結局
加遠端結局的目的就是去看看LTA中得到的類別是不是會對結局產生影響,依然是下面的圖,塗紅FWB3便是模型中的遠端結局,我們想看看AC2是不是對FWB3有影響。

具體的操作便是在模型中加上AC2到FWB3的路徑,AC2不是有3類嘛,對每一類求出FWB3,然后看這3個FWB3是不是有顯著差異就可以。當然擬合整個模型的時候一定是整體進行的,下一篇文章會給大家寫具體操作。
本文大部分內容來自參考文獻:Sorgente, Angela & Lanz, Margherita & Serido, Joyce & Tagliabue, Semira & Shim, Soyeon. (2019). Latent transition analysis: Guidelines and an application to emerging adults’ social development. TPM - Testing. 26. 39-72. 10.4473/TPM26.1.3.
小結
今天給大家介紹了潛在轉換分析及其做法,並且用一個實際例子給大家做了結果呈現,之后會給大家寫具體操作。感謝大家耐心看完,自己的文章都寫的很細,重要代碼都在原文中,希望大家都可以自己做一做,請轉發本文到朋友圈后私信回復“數據鏈接”獲取所有數據和本人收集的學習資料。如果對您有用請先記得收藏,再點贊分享。
也歡迎大家的意見和建議,大家想了解什么統計方法都可以在文章下留言,說不定我看見了就會給你寫教程哦,有疑問歡迎私信。