作者|ABHISHEK SHARMA
編譯|VK
來源|Analytics Vidhya
概述
-
在數據科學和分析領域,偏度是一個重要的統計學概念
-
了解什么是偏度,以及為什么它對作為數據科學專業人士的你很重要
介紹
偏度的概念已融入我們的思維方式。當我們看到一個圖像時,我們的大腦會直觀地分辨出圖表中的模式。
你可能已經知道,印度有超過50%的人口在25歲以下,65%以上的人口在35歲以下。
如果你畫出印度人口年齡的分布圖,你會發現在分布的左邊有一個凸起,而右邊是相對平坦的。換言之,我們可以說有個偏度傾向於末端。
所以,即使你沒有讀過數據科學或分析專業人士的偏度,你肯定已經在非正式上與這個概念進行了互動。
在統計學中,這實際上是一個相當簡單的話題,然而很多人在匆忙學習其他看似復雜的數據科學概念的過程中匆匆瀏覽了一下這個概念。對我來說,這是個錯誤。
偏度是數據科學和分析領域的每個人都需要知道的一個基本統計學概念。這是我們無法逃避的。我相信你會在這篇文章的結尾理解這一點。
在這里,我們將以最簡單的方式討論傾斜的概念。你將了解偏度、它的類型以及它在數據科學領域中的重要性。
所以,系好安全帶,因為你會學到一個在你整個數據科學職業生涯中都會重視的概念。
目錄
-
什么是偏度?
-
為什么偏度很重要?
-
什么是正態分布?
-
了解正偏態分布
-
了解負偏態分布
什么是偏度?
偏度是理想對稱概率分布不對稱性的度量,由三階標准矩給出。如果這聽起來太復雜了,別擔心!我來給你解釋一下。
簡言之,偏度是衡量隨機變量的概率分布偏離正態分布的程度。現在,你可能會想,為什么我在這里談論正態分布?
正態分布是沒有任何偏度的概率分布。你可以看看下面的圖片,它顯示了對稱分布,基本上是正態分布,你可以看到虛線兩邊是對稱的。除此之外,還有兩種類型的偏度:
-
正偏度
-
負偏度
尾巴在右邊的概率分布是正偏態分布,尾巴在左邊的概率分布是負偏態分布。如果你覺得上面的數字令人困惑,沒關系。我們稍后會更詳細地了解這一點。
在此之前,讓我們來了解為什么偏度對於作為數據科學專業人士的你來說是如此重要的概念。
為什么偏度很重要
現在,我們知道偏度是不對稱性的度量,它的類型是由概率分布尾巴所在的那一邊來區分的。但是為什么知道數據的偏度很重要呢
首先,線性模型假設自變量和目標變量的分布相似。因此,了解數據的偏度有助於我們創建更好的線性模型。
其次,讓我們看看下面的分布。它是汽車的馬力分布:
你可以清楚地看到上面的分布是正偏度的。現在,假設你想把這個作為模型的一個特性,它可以預測汽車的mpg(英里/加侖)。
因為我們的數據在這里是正偏度的,這意味着它有更多的低值數據點,也就是說,馬力較小的汽車。
因此,當我們根據這些數據訓練我們的模型時,它將在預測低馬力汽車的mpg方面表現得比那些高馬力的汽車更好。
另外,偏度告訴我們異常值的方向。你可以看到我們的分布是正偏度的,並且大多數異常值都出現在分布的右側。
注意:偏度並不能告訴我們異常值的數量。它只告訴我們方向。
現在我們知道了為什么偏度很重要,讓我們來了解一下我之前給你們看的分布。
什么是對稱/正態分布
是的,我們又回到正態分布了。
正態分布被用作確定分布的偏度度的參考。正如我前面提到的,理想的正態分布是幾乎沒有偏度的概率分布。它幾乎完全對稱。因此,正態分布的偏度值為零。
但是,為什么它幾乎完全對稱而不是絕對對稱?
這是因為,事實上,沒有一個真實的數據完全符合正態分布。因此,偏度的值不完全為零;它幾乎為零。雖然零值被用作確定分布的偏度度的參考。
你可以在上圖中看到,同一條線表示平均值、中值和眾數。這是因為完全正態分布的平均值、中值和眾數是相等的。
到目前為止,我們已經用概率或頻率分布來理解正態分布的偏度。現在,讓我們用箱線圖來理解它,因為這是在數據科學領域觀察分布的最常見的方法。
上圖是對稱分布的箱線圖。你會注意到Q1和Q2之間的距離是相等的,即:
但這還不足以得出一個分布是否傾斜的結論。我們還看一下線的長度;如果它們相等,那么我們可以說分布是對稱的,也就是說,它不是傾斜的。
既然我們已經討論了正態分布中的偏度,現在是時候了解一下我們前面討論過的兩種類型的偏度了。讓我們從正偏度開始。
了解正偏態分布
正偏態分布是尾部在右側的分布。正偏態分布的偏度值大於零。你可能已經通過觀察這個數字了解到,平均值是最大的,然后是中位數,然后是眾數。
為什么會這樣?
好吧,答案是,分布的尾巴在右邊;它導致平均值大於中值,平均值最終向右移動。此外,眾數出現在分布的最高頻率,即中位數的左側。因此,眾數<中位數<平均值。
在上面的框線圖中,你可以看到Q2靠近Q1。這代表了一個正偏態分布。根據四分位數,可以通過以下公式得出:
在這種情況下,很容易判斷數據是否傾斜。但是如果我們有這樣的圖呢:
這里,Q2-Q1和Q3-Q2是相等的,但是分布是正偏度的。你們當中目光敏銳的人會注意到右線的長度大於左線的長度。由此,我們可以得出結論,數據是正偏度的。
所以,第一步總是檢查Q2-Q1和Q3-Q2的相等性。如果這是相等的,那么我們尋找線的長度。
了解負偏態分布
正如你可能已經猜到的,負偏態分布是尾巴位於左側的分布。負偏態分布的偏度值小於零。你還可以在上圖中看到均值<中值<眾數。
在箱線圖中,負偏度四分位數之間的關系由以下公式給出:
與我們之前所做的類似,如果Q3-Q2和Q2-Q1相等,那么我們尋找線的長度。如果左線的長度大於右線的長度,那么我們可以說數據是負偏度的。
我們如何轉換傾斜的數據
既然你知道傾斜數據會對機器學習模型的預測能力產生多大影響,那么最好將傾斜數據轉換為正態分布數據。以下是一些可以轉換傾斜數據的方法:
-
冪變換
-
log變換
-
指數變換
注:轉換的選擇取決於數據的統計特性。
結尾
在本文中,我們討論了偏度的概念、它的類型以及它在數據科學領域中的重要性。我們在概念層面上討論了偏度,但是如果你想更深入地研究,下一步你可以探索它的數學部分。
原文鏈接:https://www.analyticsvidhya.com/blog/2020/07/what-is-skewness-statistics/
歡迎關注磐創AI博客站:
http://panchuang.net/
sklearn機器學習中文官方文檔:
http://sklearn123.com/
歡迎關注磐創博客資源匯總站:
http://docs.panchuang.net/