(五)歸一化


之前已經看到了用直方圖來顯示數據集的重要性,以便分析圖表形狀,我們想要分析該形狀,這樣就可以嚴謹地思考平均值、中位數和眾數並描述數據集,在偏態分布中平均值、中位數和眾數各不相同,在很多情況下,中位數可能比平均值更有用,在正態分布中,平均值、中位數和眾數幾乎相等,還需要了解分布形狀的哪些方面?

舉例說明

我們用一個故事來講解,我從小到大都在玩象棋,四歲就學會了,在 7 歲的時候就開始參加比賽,對於我的象棋能力,我可以說出三個方面,首先是我的象棋評分是 1800 分,所有競爭對手都有評分,其次是在參加比賽的美國
象棋選手中,我的排名是第 8,110 位,這是基於評分的, 第三,我的排名比 88% 的美國象棋選手都高,哪個可以讓你清晰地了解到我的象棋水平? A.□ 我的象棋評分是 1800 分 B.□ 在參加比賽的美國象棋選手中,我的排名是第 8,110 位 C.□ 我的排名高於 88% 的美國象棋選手
C
對於A選項,對於大多數人來說,當我告訴他們我的評分是 1800 分時,他們並不知道這是什么意思,因為我們不知道評分范圍是多少,最低分是多少,最高分是多少,有多少人得分大約為 1800 分,有多少人得分為 1,000 分,單憑這一個數據,信息量並不大。
對於B選項的數值也一樣 我們大概知道有 8,000 人可能比我厲害,但是有多少人玩象棋呢?
百分比信息量就很大了,因此與找出平均值、中位數或眾數哪個是最佳衡量指標相比,分布圖的形狀更加重要
View Code

在這之后我們關心的是數據值的比例,小於或大於數據集中的某個值,如果我告訴你我的評分是 1800 分,在我告訴你評分分布圖的形狀之前,你並不知道 1800 分的含義,你可以看到低於某個值的比例。
如果我們關心的是低於某個值的比例,我們應該如何對柱狀圖進行操作,使用絕對頻率還是相對頻率?
答案是使用相對頻率,並將所有絕對頻率轉換為比例。

我們再來看一個示例

平均下來,人們有 190 個 Facebook 好友,假設他們的樣本分布圖是下圖這樣的,首先,將每個頻率轉換為相對頻率,並繪制出相對頻率圖表,請點擊每個條形高度對應的單選按鈕,轉換為比例

可以看到,相對頻率分布圖幾乎和絕對頻率分布圖一樣。

根據剛剛繪制的相對頻率分布圖,看看 Facebook 好友在 170210 個之間所占的比例是多少?
如果看看該直方圖,會發現中間兩個最高的條形位於 170210 之間,比例分別是 0.2370.223,如果相加的話,結果是 0.46
View Code
上一個問題相對比較簡單,但在現實生活中,很難回答我們要回答的問題,例如在 180200 之間的比例是多少?
你可能已經看到 180200 都位於分組中間,因此,我們無法確定這兩個數字之間的比例是多少
View Code

注意,在之前提到了直方圖存在的問題,為了方便犧牲了一些細節,由於這些分組,我們無法判斷小於或大於某些數字的比例是多少?但是我們想知道這些信息,看看分布圖中的某些得分與其他得分相比的結果,如何獲得更多細節呢?向數據集中添加更多數據、增加組距還是減小組距?

更小的組距可以提供更多細節,例如,將組距減少一半,現在組距是 10 而不是 20,這樣柱或區間的數量就翻了一番,現在多了一倍的數值,可以讓我們清晰地知道大於或小於這些值的比例。

但是我們依然不知道有多少值小於每個分組之間的任何數值,例如,我們無法判斷小於 175 的比例,理想情況下,我們盡量希望組距越小越好,實際上,是無窮小,但是隨着我們增加分組數量足夠大時,我們可以看到每個容器的頻率要么是 0 或 1,這是因為分組太小了,很多分組中只有 1 個值甚至沒有任何值,最終如果繼續降低容器大小,分布圖的形狀變得松散起來

 

現在我們陷入了困境,我們想要很小的組距,盡量提供更多的細節信息,描述出數據值相對於分布圖剩余數據值的位置,最終,我們開始丟失分布圖的形狀。如果組距很大,則無法判斷小於任何數據值的比例,我們將使用一個分布圖理論模型來解決這一難題,該模型的曲線比較光滑,使用的是相對頻率,這是一個理論上連續的分布圖,可以用方程式來表示,這個簡單的功能即方程式,使我們能夠計算 x 軸上任何兩個值之間的比例,這個曲線下的面積是多少?這是個非常難的問題,注意,對於這個柱狀圖,所有相對頻率的和是多少?

該曲線下的面積是 1,注意,對於頻率來說,所有頻率相加是 1 與之類似,該曲線下的面積等於所有容器里的所有頻率的和,應該等於 1
View Code

在大部分情況下,我們將重點研究正態分布數據,正態分布類型多樣,有寬扁型、瘦高型或者介於二者之間,但曲線下的面積始終為 1 或 100%,之前還在正態分布數據集中看到平均值、中位數和眾數幾乎相等,在理論模型中,它們是完全相等的,理論模型是完美對稱的,在現實生活中幾乎不會發生,這些模型接近於我們的現實分布圖,但是通常可以非常相近,在理論模型中,大多數數據都位於中間,分布在平均值、中位數和眾數周圍,之前我們有提到大約 68% 的數據在平均值的 1 個標准偏差內,95% 的數據在平均值的 2 個標准偏差內

 

 特定值在 x 軸上的位置通常用標准偏差來描述,如上圖,A點是平均值,B點是平均值加 1 個標准偏差,C點是平均值加 2 個標准偏差,類似地,D點是平均值減 1 個標准偏差,E點是平均值減 2 個標准偏差,無論數值是多少,我們都可以將其轉換為與平均值的標准偏差值,我們將其稱為 Z值

通過將正態分布中的數值轉換為這個特殊數字 z就可以知道小於或大於該值的百分比,例如如果某個值與平均值相差 1 個標准偏差,則無論是哪種正態分布,我們都知道大約 84% 的數值小於該值,在之后, 我們將學習如何計算正態分布中小於或大於某個值的比例,在什么樣的示例中,我們想要知道小於或大於特定值的比例呢?我們用另一個故事來描述

Andy:Katie,我一點也不受歡迎
Katie:別擔心,我也是,我只有 63 個 Facebook 好友
Andy:我只有 54 個 Twitter 關注者
Facebook 好友的平均數量是 190 人 ,Twitter 關注者的平均數值是 208 人,看看比例,Katie的 Facebook 好友數是平均值的 33%,Andy的 Twitter 關注者也只有平均值的 25%
了解受歡迎程度更好的方式是看看分布情況,Facebook 好友和 Twitter 關注者的分布是正態的,Twitter 關注者的標准偏差是 60,但是 Facebook 好友的標准偏差只有 35,與平均值的標准偏差肯定是了解受歡迎程度
的更佳方式
根據這些分布情況 Katie的 Facebook 好友數量與Facebook 好友數量平均值的標准偏差是多少?注意,Katie有 63 個 Facebook 好友 Facebook 好友的平均數量是 190 個,標准偏差是 36,所以Katie的標准偏差是
多少?
Katie與平均值的偏差是 127,用 127 除以 36將得出標准偏差,也就是 63 與平均值的差值,結果等於 3.53,所以對於Katie所具有的好友數量,Katie低於平均值 3.53 個標准偏差。
View Code
相同的方法可以計算出Andy 大約低於平均值 2.57 個標准偏差
View Code

如果 Andy 只使用 Twitter 而Katie只使用 Facebook,可以說 Andy 沒有Katie受歡迎嗎?在這個簡單示例中,注意我們對受歡迎程度的定義是 Facebook 好友或 Twitter 關注者的數量,是或否?為什么?

 

 

否,我們不能據此判斷 Andy 更不受歡迎,即使他的Twitter 關注者比Katie的 Facebook 好友數量少,因為看分布圖的話,它們都是不同的,我們可以通過在同一坐標軸上對比它們,換句話說,根據它們的唯一標准偏差,這叫做標准化分布圖,使用 0 作為參考點。

當我們對 Andy 的數據和Katie的進行標准化后,發現Katie離平均值更遠,標准化數據顯示了在該分布圖中的數值更高或更低,在 Facebook 好友分布圖中,比Katie好友數多的人所占的比例比在 Twitter 關注者分布圖中比 Andy 的關注者多的人所占的比例要高,也就是說Katie更不受歡迎。

 

 

 標准偏差數量的公式:

 

我們不僅關心各個值與平均值之間的距離,還關心這些值是小於還是大於平均值,在 x 軸上標准化任何數值時我們得出 Z 值,之前就將其稱為 Z值,我們始終會用 x 減去平均值,然后除以標准偏差,這樣,當某個值小於平均值時,結果會是負的 z 值。z 值是指任何值距離平均值的標准偏差數。因此,我們可以將正態分布中的任何值轉換為 z 值,這么轉換時,我們就標准化了分布圖,我們可以對任何正態分布圖進行標准化。

 我們來計算一下Katie的Z值是多少,Katie63 個 Facebook 好友,實際的 Facebook 好友數平均值是190,假設標准偏差是 36,則Katie的Z值是多少

 

-3.53
View Code

 

負的 Z 值意味着什么?

    A.□ 原始值是負數
    B.□ 原始值小於平均值
    C.□ 原始值小於 0
    D.□ 原始值減去均值是負數
BD
View Code

現在再做一道測驗題,如果我們通過將所有值都轉換為 z 值,來歸一化分布圖,該歸一化分布圖的新平均值會是多少?提示下,想想我們是怎么計算 z 值的,即該坐標軸上的任何值減去平均值,然后除以標准偏差。

注意,我們將下面這個分布圖一直往這邊移動,並移到 0 的位置,因為我們要減去平均值,所以本質上,如果我們有個平均值為 100 的正態分布圖,我們減去平均值,即將該分布圖往左移了 100 個位置,那么 新的平均值則為 0,

還有一個更難的概念性問題,在歸一化該分布圖后,該分布圖的新標准偏差是多少?

注意,當我們計算分布圖中任何值的 z 值時,首先減去平均值,這會平移分布圖而不會改變分布圖的形狀,這樣 0 就變成了平均值,然后除以標准偏差,這樣就改變了形狀。這么來理解,這是任意的分布圖 這是平均值 μ 這是標准偏差 σ,表示 σ 距離平均值一個標准偏差,在標准化該分布圖后 σ 的 z 值是多少?當我們減去 μ 時,我們將分布圖平移了,使 μ 變成 0,所以 σ 的 z 值將是 (σ-0)/σ即 σ/σ=1,所以任何值的 z 值,即距離平均值一個標准偏差,在標准化分布圖后將為 1,表示這個正態分布或標准分布的新標准偏差是 1。

 

 

 總結下,對於任何正態分布,我們都可以通過以下方式歸一化該分布:首先減去平均值,將其平移到 0 處,然后除以標准偏差,使標准偏差等於 1,這就叫做標准正態分布。平均值為 0,標准偏差為 1,所以D處的 z 值將為 -1,C是距離 2 個標准偏差,E是距離 -2 個標准偏差,現在,數據集中的每個值都用距離平均值的標准偏差來表示。

 

假設 Chris 非常受歡迎,他擁有的 Facebook 好友數大於平均值2.5 個標准偏差,也就是說他比 99% 的人好友數都要多,如果原始數據的真實標准偏差依然是 36,原始平均值依然是 190,那么,Chris有多少個 
Facebook 好友?這次 我們將 z 值轉換成實際的值,而不是將某個值轉換成了對應的 z 值。
280
這是 Chris 的數據 比大約 99% 的人好友數都要多,高於平均值 2.5 個標准偏差,如果標准偏差是 36,那么 2.5 個標准偏差是多少?2.5 個標准偏差等於 36X2.5=90,所以 Chris 的好友數比平均值多 90 個,平均值是 190190+90=280 所以 Chris 有 280 個 Facebook 好友。
另一種解答方法是使用方程式,Chris 的 z 值是 2.5,等於原始值減去平均值,然后除以標准偏差,如果代入已知的值 2.5 是 z 的值 x (他的 Facebook 好友數),減去平均值,然后除以標准偏差,如果按照代數方法,交叉相乘 然后加上 190 就得出了Chris 的好友數(用 x 表示)為 280
View Code

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 ,

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM