scatter diagram散點圖和線性關系


scatter diagram散點圖和線性關系

標簽(空格分隔): 統計學;散點圖


散點圖:散點圖(scatter diagram),在回歸分析中,數據點在直角坐標系平面上的分布圖。

  • 散點圖表示因變量隨自變量而變化的大致趨勢,據此可以選擇合適的函數對數據點進行擬合。
    用兩組數據構成多個坐標點,考察坐標點的分布,判斷兩變量之間是否存在某種關聯或總結坐標點的分布模式。
    散點圖將序列顯示為一組點。值由點在圖表中的位置表示。類別由圖表中的不同標記表示。散點圖通常用於比較跨類別的聚合數據。

  • 散點圖主要是度量兩變量關系強弱的最直觀的圖形,雖然三維圖形也在起着類似的作用,但就直觀性上仍然不能取代二維圖的效果,不過在探索多維變量間關系上提供了非常好的視角,另外比較常用的是偵察相對回歸面的異常值,尤其具有可視化的優勢,不過個人認為這並不比二維圖更清晰。至於矩陣圖其本質上仍然是二維關系。

下面從不同的側重點來說明

1)探索數據主體模型
此處輸入圖片的描述

散點的相對疏離程度主要反映在相關系數上,其趨勢狀況是由回歸系數,或斜率來反映。散點分布信息如線性,非線性,提供了統計模型的多項式信息;而分布的長短對應數據或統計信息的大小。圖中顯示了線性、且第一組提供的信息更豐富一點(方差大)。 95%的預測區間,給出了數據的主體模型,及其可能存在異常值的觀測信息,如果兩變量s與j線性關系已經確定的話,那么符號圓點、加號兩組均有異常案例,其中圓點組有較多的異常。這對模型的預測效果將產生很大的影響。

2)探索模型殘差信息

此處輸入圖片的描述

第一組數據的離散性更大一點,預示着不同類型的異常信息,提示在建模時對這些觀測需多加小心,其中杠桿點最值得關注。
95%的預測區間和置信區間,給出了不同組模型的擬合效果,兩組數據比較相近,故置信區間有些重疊,至於模型殘差信息,以第一組為例,紅色箭頭指向的那個點和藍色箭頭指向的點,均是較強的杠桿點,但杠桿點所起的效應是否會破壞模型的有效性,需要視OLS估計的殘差而定,我們知道回歸參數標准誤來源於殘差等信息的計算(正向關系),因此紅色箭頭點將帶來的相對較大的殘差(相對第一組回歸線而言),如果這種信息超出了一定的規則,OLS估計將無效。
垂直特異性是另一個值得關注的異常信息,像第一組的數據(最下方的幾個圓點,包括紅色箭頭指向的點)可能帶來回歸截距的變化(當然回歸線兩邊分布點大致相當的話除外),如果數據點同時具有上述兩種特征,那么該數據點沒有理由不處理。

3)探索殘差的相對信息
此處輸入圖片的描述
此處輸入圖片的描述

矩陣圖或鑲有嵌板的圖,在觀測多變量或不同特征群組間的關系時,很方便。上面的兩幅圖提供的信息很類似,例如矩陣散點中,變量G與3個J均有不同數據點偏離的比較遠,這預示着在多維空間里,這些點的特殊性,不過這要結合更專業的殘差圖綜合分析,例如某殘差的權勢圖、穩健距離圖等等。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM