了解多階段調查數據分析中權重的使用
抽象
Ciol MA,Hoffman JM,Dudgeon BJ,Shumway-Cook A,Yorkston KM,ChanL。了解在多階段調查數據分析中權重的使用。
大型國家調查是檢查各種重要的康復相關問題的有力工具,並且是目前研究隨時間推移殘疾趨勢的唯一可行方法。因為從整個美國抽取簡單的隨機樣本是不切實際的,所以國家調查(例如Medicare當前受益人調查(MCBS))選擇人口子組的隨機樣本。因此,受訪者被納入調查的可能性可能不相等,因此在將結果推廣到整個美國之前,必須在分析中使用權重。MCBS之類的調查是康復醫學的豐富數據來源,可以預料將使用這些數據源進行更多的研究。這些數據的統計分析應說明數據收集中使用的采樣方案。我們回顧了多階段樣本設計,權重計算及其在數據分析中的使用所涉及的原則,重點是它們在總體價值估計中的重要性。我們的目標是使用這種方法來幫助讀者理解和解釋研究論文的結果。提供了使用MCBS數據的示例,以闡明本文中提出的概念。
大型國家調查是強大的工具,可用來檢查各種與康復相關的重要問題,並且是目前研究長時間殘疾趨勢的唯一方法。由於從整個美國抽取一個簡單的隨機樣本並不總是可行的(進行親自調查的旅行費用是高額的),因此,諸如Medicare當前受益人調查(MCBS)1等全國性調查旨在選擇人口子群的隨機樣本。使用這些抽樣方案(分層或多階段)進行的調查在文獻中很普遍,研究范圍從與酒精相關的非致命傷害,2到青少年體重變化,3診斷初級護理中的嚴重抑郁症。使用多階段抽樣方案的4項著名的國家調查包括“國家健康訪問調查”(NHIS),“ 5國家健康和營養檢查調查”(NHANES),6和MCBS。這些調查可以只進行一次(橫斷面調查),也可以在一段時間內跟蹤參與者(縱向調查)。
在多階段抽樣方案中,將不平等的選擇概率分配給總體中的每個人。因此,從這些樣本進行的數據分析必須考慮選擇一個人的可能性(以抽樣權重的形式),否則結果可能會得出不適當的結論。在2002年1月1日至2005年2月10日之間對PubMed數據庫進行的搜索中,有1797篇文章的標題或摘要引用了NHANES,813篇引用了NHIS,57篇引用了MCBS,表明正在進行大量研究。通過使用多階段調查。在使用MCBS數據的57篇文章中,有16篇與康復醫學有關,但只有7篇在分析中使用了抽樣權重。所以,
鑒於在MCBS中收集的有關健康狀況和殘疾的數據非常豐富,康復醫學領域的更多研究可能將依賴MCBS或其他類似調查。本文回顧了涉及分層和多階段方案的抽樣技術的基本原理,並以MCBS為例,說明了權重的推導和重要性。討論了與加權分析的應用有關的問題。
采樣方案的基本原理
在本節中,我們回顧了調查抽樣的一些基本定義和原則。在專業書籍中可以找到對調查抽樣的更多數學處理。7, 8每個調查計划都從定義目標人群(即我們希望將結果推廣到的人群)開始。但是,該人群可能無法訪問。我們可以從中抽樣的總體是調查總體,這是可以將結果進行概括的總體。通常,我們有興趣通過使用從樣本獲得的信息來估算目標人口值。例如,我們可能有興趣在美國65歲以上的所有人(我們的目標人群)中找到行動不便人士的比例。要從該人群中選擇一個樣本,我們需要有目標人群中每個主題的列表。因為這樣的列表可能很難獲得,所以我們可以使用Medicare人口。某年 可以從Medicare記錄中確定Medicare人口,並將其作為我們的調查人口。樣本中觀察到的任何行動不便的受試者比例是調查人群中真實比例的估計值。2002年,醫療保險人口約占95%年齡在65歲及以上的美國人口中有 9例,因此,可以合理地假設結果可以推廣到64歲以上的整個美國人口。在其他情況下,研究人員必須論證是否可以將調查人群的估算值推廣到目標人群,並且在解釋結果時必須謹慎。
樣本的估計值可能受到兩種類型的誤差的影響:抽樣誤差與樣本從調查人群中的選擇方式有關,非抽樣誤差與測量誤差有關,取決於儀器以及用於數據收集的協議。抽樣方案的主要目標是在估計總體值時最大程度地減少抽樣誤差。
采樣方案有2個組成部分。選擇過程定義了如何從總體中選擇主題,從而產生了選擇某個主題的可能性。估計過程是一種公式,通過該公式,可以將選擇過程考慮在內,從而估算出總體價值。從概念上講,最簡單的選擇過程是簡單隨機樣本(SRS),它使總體中的每個主題都具有相同的被選擇概率。例如,如果一個人有興趣估計人口中殘疾受試者的比例,並且使用的采樣過程是SRS,則適當的估計過程就是計算采樣比例。
進行調查時,SRS並不總是很方便。例如,在一項全國調查中,很難輕易找到許多人口。此外,與資助和及時進行此類調查有關的問題可能會排除SRS的設計。在更復雜的情況下,必須修改選擇和估計過程,以最大程度地減少采樣誤差並最大化調查的效率。如果可以將總體歸類為在某些特征上可能不同的組,則可以從每個組中選擇一個樣本(分層樣本),並計算每個層的總體值估計。但是,如果需要估算整個人群的價值,
為了說明這一點,請考慮由36個人組成的人群,他們的FIM儀器評分(FIM是一項評估運動和認知功能中日常生活[ADL]基本活動的量度)如下:19、20、21, 22、23、25、27、28、29、29、30、30、31、32、33、35、35、36、37、45、46、49、53、55、56、57、58、60, 65、66、75、76、78、78、82、125。
整個總體的真實均值(所有值的總和除以36)為46.28。但是,假設我們只能觀察其中12個人的FIM,並且通過使用SRS,我們獲得以下樣本:21、27、28、29、29、30、35、36、37、45、60 ,65。
SRS對總體平均值的估計是樣本平均值,在這種情況下為36.8,比真實平均值小,這是因為FIM較高端的受試者在樣本中的代表性不足。另一個SRS可能包括人口中最高的FIM值,例如以下樣本:28、29、31、58、60、65、75、76、78、78、82、125,我們將得出樣本均值65.4,比真實均值大得多。在這里分層可能會有所幫助。如果我們根據FIM的大小將人口分為4個層次(表1,第1至3欄),然后計算加權平均值(將每個階層的平均值乘以它在總體中所代表的比例[第4列]),就可以得出真實的總體平均值(第5-6列)。通過使用相同的思想,如果我們在每個層次中采用SRS(表1中的粗體值表示),並計算加權樣本均值,則得出46.43作為總體均值的估計值(第7-8列),即更接近真實人口的均值。本質上,權重占每個階層代表的總體比例,反映了階層中的某個元素被選擇包含在樣本中的概率。可以證明,當抽樣過程是分層設計時,加權樣本均值是總體均值的良好估計(從統計意義上來說)。8
層號 | FIM間隔 | 地層元素⁎ | 地層重量(w ^)† † | 全部人口 | 僅樣品 | ||
---|---|---|---|---|---|---|---|
均值 | 層均值× w | 層均值 | 層均值× w | ||||
1個 | 18–44 | 19,20,21,22,23,25,27,28,29,29,30,30,31,32,33,35,35,36,37 | 19/36 = .5278 | 28.53 | 15.06 | 28.83 | 15.22 |
2 | 45–74 | 45,46,49,53,55,56,57,58,60,65,66 | 11/36 = .3056 | 55.45 | 16.94 | 56.00 | 17.11 |
3 | 75–99 | 75,76,78,78,82 | 5/36 = .1389 | 77.80 | 10.81 | 76.50 | 10.63 |
4 | 100–126 | 125 | 1/36 = .0278 | 125.00 | 3.47 | 125.00 | 3.47 |
和 | 1.0 | 46.28 | 46.43 |
可以通過簡單的代數運算將先前給出的權重轉換為層大小與層樣本大小的比率,並且加權樣本平均值可以以略有不同的方式計算。例如,第1層有19個元素,其中有6個元素被選擇用於樣本。因此,每個采樣元素的權重為19/6 = 3.17。對於第2層,權重為11/3 = 3.67(該層中有11個元素,其中有3個元素被采樣),依此類推。在表2中,我們顯示了樣本中每個元素的權重。最后一欄顯示權重乘以采樣元素。例如,第一個元素為22,其權重為3.17,乘積為69.67。加權平均值是所有產品的總和除以所有權重的總和(即1671.33 / 36 = 46.43),該值與表1中的計算值相同。
層號 | FIM間隔 | FIM for SampledSubjects | 權重= StratumSize / StratumSample大小 | 重量×實測值 |
---|---|---|---|---|
1個 | 18–44 | 22 | 3.17 | 69.67 |
23 | 3.17 | 72.83 | ||
30 | 3.17 | 95.00 | ||
31 | 3.17 | 98.17 | ||
32 | 3.17 | 101.33 | ||
35 | 3.17 | 110.83 | ||
2 | 45–74 | 46 | 3.67 | 168.67 |
56 | 3.67 | 205.33 | ||
66 | 3.67 | 242.00 | ||
3 | 75–99 | 75 | 2.50 | 187.50 |
78 | 2.50 | 195.00 | ||
4 | 100–126 | 125 | 1.00 | 125.00 |
和 | 36.00 | 1671.33 |
權重是樣本中每個元素表示的層中元素的數量。例如,在第2層中,每個抽樣元素代表總體中的3.67個元素,而在第4層中,抽樣元素代表1個元素(即整個層次)。權重越大,地層內采樣元素的比例越小。對這些權重的解釋可能導致對未加權和加權樣本量的不當報告。例如,在前面的示例中,可以將未加權的樣本大小報告為12,將加權的樣本大小報告為36。實際上,未加權的樣本大小是唯一選擇的樣本的大小。加權樣本數量無非是樣本所代表的總體數量,這是已知的,或者可以輕松地從權重中計算出來。應將其報告為代表群體的大小,而不是樣本的加權大小。換句話說,我們沒有以任何方式增加樣本量。
當群體的關注變量彼此不同時,通常會使用分層,例如我們前面的示例中的FIM。在這種情況下,我們通常對每個層次(例如,每個層次中的平均FIM)的推斷(例如,均值,比例,總數,比率)和整體推斷(例如總體均值FIM)感興趣。將來自各層的推論組合成關於整個總體的推論時,權重就起作用了。在前面的示例中,我們考慮了在總體總體均值的估計中包括權重。平均值的標准誤(SEM)的估算還必須包括權重;否則,SEM可能會被高估或低估,具體取決於被過度采樣的地層的變異性。如果我們用,其對SEM的估算為


就數據分析而言,更復雜的采樣設計(例如多階段方案)可以看作是分層的擴展。例如,可以將一個州划分為郵政編碼,並且在每個郵政編碼內將人口划分為年齡組。可以通過首先隨機選擇一些郵政編碼,然后在這些郵政編碼區域內的每個年齡層中選擇主題來獲取最終樣本。因此,可以根據郵政編碼所屬的人口規模和該人所屬的年齡組為每個人計算權重。每當研究人員有興趣對涉及一個以上年齡段或郵政編碼區域的整個人口或其中一部分進行推斷時,都必須使用權重以最大程度地減少估計誤差。在下一節中
使用MCBS的示例
MCBS是一項對醫療保險受益人的調查,該調查對每個樣本對象進行長達4年的跟蹤。該調查收集了有關受益人健康狀況和醫療保健利用許多方面的數據。我們將使用2001年的數據來顯示使用權重進行統計分析的示例。有關MCBS的更詳細說明,可以在Adler 10的研究報告中以及在MCBS網站上找到。1個
對於MCBS,美國被划分為地理主要抽樣單位(PSU),每個抽樣單位由一組縣組成。在抽樣方案的第一階段,選擇了107個PSU代表該國。在PSU中,樣本僅限於與郵政編碼相對應的某些地理子區域中的地址。在這些地區中,系統地使用了隨機抽樣的年齡分層,其中有因殘疾(不論年齡大小)而有資格獲得醫療保險的受益人人數過多,以及受益人的年齡在85歲及以上。抽樣方案旨在為每個階層以及整個人口提供良好的估計,同時確保及時進行調查。樣本中包含的可能性由受益人的住址,年齡和殘疾狀況決定。抽樣權重旨在解決概率差異。Medicare在某個時間點列出了人口中所有人員的列表,從中可以計算出一個人將出現在樣本中的概率。在MCBS數據文件中,可用變量之一是“年度橫截面權重”,該加權數將在指定的1年期限內用於加權分析。
使用權重估算總體價值
2001年MCBS樣本中有12769名年齡在65歲以上的受試者,代表該年登記的大約3086萬人的Medicare受益人。參與者報告了他們是否有6種日常生活活動(ADL)困難,包括洗澡或淋浴,進食,穿衣,出入椅子,上廁所和散步。根據每個人遇到困難的ADL數量(0-6個ADL)對每個人進行分類。通過使用簡單(未加權)和加權方法(表3),估算了每個類別中受試者在人口中的比例。
困難的ADL數量 | 樣本中的主題數 | 估計比例 | 估計的總人口 | ||
---|---|---|---|---|---|
未加權法 | 加權法 | 未加權法 | 加權法 | ||
0 | 9,020 | .706398 | .728486 | 21,796,982 | 22,478,530 |
1個 | 1,668 | .130629 | .123932 | 4,030,750 | 3,824,108 |
2 | 816 | .063905 | .059393 | 1,971,878 | 1,832,660 |
3 | 439 | .034380 | .031562 | 1,060,851 | 973,893 |
4 | 359 | .028115 | .024875 | 867,530 | 767,556 |
5 | 287 | .022476 | .019694 | 693,540 | 607,688 |
6 | 180 | .014097 | .012058 | 434,973 | 372,068 |
總 | 12,769 | 1.0 | 1.0 | 30,856,503 | 30,856,503 |
在這兩種方法中,比例非常相似,尤其是前2個十進制數字。但是,由於這些比例將應用於非常大的人群(> 3000萬),因此需要更高的精度。表3的最后2列顯示了將未加權和加權估計應用於數據的效果。與加權方法相比,非加權方法估計的人群中ADL困難人數更多。發生這種情況的原因是,MCBS抽樣設計要求對年齡較大的人群進行過多的代表,我們預計這會帶來更多的ADL困難。(此處未考慮對65歲以下的殘疾人進行過度采樣,因為他們未包括在示例中。)基於示例中顯示的原理表1,表2的加權分析應提供更准確的總體值估計。例如,如果將結果用於制定衛生保健政策,則忽略復雜的抽樣設計及其相關的權重可能會導致高估或低估了實施政策所需的必要資源。在我們的示例中,如果要為沒有ADL困難的人群制定政策,那么忽略權重將導致全國大約681,000受益人的人數被低估(第5欄和第5欄的估計數之間存在差異)對於表3中的 ADL = 0,如圖6 所示。
在線性和邏輯回歸分析中使用權重
在研究變量之間的關系時,根據結果變量的類型,適當的分析方法可以是線性回歸或邏輯回歸。在多階段抽樣設計中,當總體的某些子組被過度抽樣時,估計的關聯可能會偏向一個方向或另一個方向。通過使用加權線性或邏輯回歸可以緩解此問題。
例如,請考慮2001年的MCBS調查。我們將使用本質上是二進制的結果,因此將使用邏輯回歸。線性回歸的方法與此類似。假設將結果定義為在一種或多種工具性ADL中存在困難,包括進餐,理財,購物,雜貨店購物,輕度或繁重的家務勞動以及電話使用,並且我們想研究困難之間的關聯工具性ADL和各種解釋性變量(年齡,性別,種族,社會經濟地位,合並症數,過去一年的健康狀況)中的數據。表4顯示了加權和非加權線性回歸的結果。這兩種方法之間的主要區別在於種族效果。盡管在非加權方法中種族具有統計學意義(顯着性水平為.05),但在加權方法中卻沒有。造成這種差異的主要原因是,MCBS對85歲以上的人群進行了超采樣,而這些受試者中有很大一部分是白人。該分析表明結果和解釋可能取決於使用加權分析還是未加權分析。
解釋變量 | 未加權回歸 | 加權回歸 | ||
---|---|---|---|---|
系數 | P | 系數 | P | |
年齡(y) | 0.076 | <.001 | 0.072 | <.001 |
性別(男人;參考:女人) | −0.764 | <.001 | −0.802 | <.001 |
種族(非白人;參考:白人) | 0.152 | .016 | 0.091 | .219 |
SES(收入≥$ 25,000;參考:<$ 25,000) | 0.382 | <.001 | 0.356 | <.001 |
合並症數 | 0.319 | <.001 | 0.323 | <.001 |
健康狀況(良好;參考:不好) | 1.556 | <.001 | 1.577 | <.001 |
不變 | −7.523 | <.001 | −7.230 | <.001 |
縮寫:參考,參考;SES,社會經濟地位。
在縱向數據分析中使用權重:可能嗎?
在醫學文獻中,術語“ 縱向”已用於各種場合。在統計文獻中,縱向研究被定義為一項研究,其中“對對象的測量是隨時間重復進行的。” 11在縱向數據分析中權重的使用取決於總體的定義方式,樣本的選擇方式,重復測量的頻率,以及是否可以計算適當的權重。
當選擇一個樣本並在穩定的人群中在相同的時間段內觀察到所有受試者時,加權分析是可行的。例如,您可以根據某種樣本設計(可能是復雜的和多階段的)來選擇樣本,並遵循5年。如果人口數量不會隨時間變化,則可以通過應用常規的加權分析方法使用樣本來推斷人口價值,因為多年來,每個人仍然代表人口中相同的人數。
醫療保險人口是不斷變化的人口的一個例子,受試者不斷地進入和離開人口。MCBS旨在替換大約三分之一的樣本,從而錯開了受試者進入和退出年度樣本的時間。因此,樣本中的人參加調查的每一年所代表的人口數量並不相同。MCBS數據文件的權重跨度為2或3年12例如,允許研究人員在一定時期內進行觀點推斷,例如在固定的2年期間內行動不便的受試者的患病率。但是,如果我們想使用MCBS樣本研究所有從1995年至2000年開始樣本的受試者,並追蹤他們4年以建立一些殘疾的途徑(通過反復測量其殘疾狀況),每個人都不容易計算。一種解決方案是在不使用權重的情況下分析數據,並確認總體中某些子組的過度代表。這種分析的結果需要謹慎解釋。研究統計學家可能要做出判斷,判斷是否違反統計模型的任何假設是否會對結果產生影響,並且,因此,在結論中。同樣危險的是在縱向分析中隨意使用權重,例如使用為橫截面分析而開發的權重,好像它們在縱向設置中有效一樣。充分了解生成數據的樣本方案有助於避免此類陷阱。
其他與加權分析有關的問題
適當的統計分析取決於研究目標和設計以及結果的類型。因此,如果調查使用加權抽樣,那么關於人口價值的推論(例如均值,比例,總數和比率)必須使用加權分析。對於涉及1個或多個層次分層的推理也是如此。
可能會問,當目標人群的實際規模未知或無法對所有受試者進行枚舉時,加權是一個問題。在殘疾研究中,當我們不得不依靠來自某個診所的受試者樣本時,就會發生這種情況。這些類型的研究的主要假設之一是,觀察到的樣本等於人群的SRS。這是一個很強的假設,出於謹慎考慮,研究人員將他/她的結論限制為可用的樣本人群,而不是目標人群。此處無法使用權重,因為無法計算權重。因此,除非假定采用SRS,否則無法估計依賴於權重的值(例如人口中具有一定條件的人數)。
可用軟件
市面上有專門為調查中的加權樣本專門開發的各種軟件。在我們的示例中,我們使用了SAS 13和Stata,14,但也可以使用其他統計軟件,例如WesVar 15和SUDAAN。16可以在我們的網站上找到表4所示的SAS Proc SurveyLogistic和Stata 的邏輯回歸中使用的一組基本命令。17
結論
涉及分層或多階段抽樣的復雜調查是通常用於估計值和人群中結果與變量之間的關聯的設計。通常,抽樣程序會根據對象所屬人群中的群體或階層,提供不同的選擇概率,因人而異。使用權重的統計方法的主要目的是最大程度地減少抽樣誤差,並使整個總體的估算過程更加准確。應在可能且適當的地方使用它們。
原文出處:
https://www.archives-pmr.org/article/S0003-9993(05)01284-0/fulltext#section.0025