pd.rolling（）窗口移動 expanding 累進

本文轉載自查看原文 2021-04-17 18:12 370 pandas/ 數據分析

概念:

為了提升數據的准確性，將某個點的取值擴大到包含這個點的一段區間，用區間來進行判斷，這個區間就是窗口。移動窗口就是窗口向一端滑行，默認是從右往左，每次滑行並不是區間整塊的滑行，而是一個單位一個單位的滑行。

上圖是10天作為窗口大小，藍色線條是滑動窗口的均值，紅色線條是原始的數據

給個例子好理解一點：

不知道大家看出了其中規律沒有

首先我們設置的窗口window=3，也就是3個數取一個均值。index 0,1 為NaN，是因為它們前面都不夠3個數，等到index2 的時候，它的值是怎么算的呢，就是（index0+index1+index2 ）/3

index3 的值就是（ index1+index2+index3）/ 3

參數詳解：

DataFrame.rolling(window, min_periods=None, center=False, win_type=None, on=None, axis=0, closed=None)

window：也可以省略不寫。表示時間窗的大小，注意有兩種形式（int or offset）。如果使用int，則數值表示計算統計量的觀測值的數量即向前幾個數據。如果是offset類型，表示時間窗的大小。offset詳解

min_periods：每個窗口最少包含的觀測值數量，小於這個值的窗口結果為NA。值可以是int，默認None。offset情況下，默認為1。

center: 把窗口的標簽設置為居中。布爾型，默認False，居右

win_type: 窗口的類型。截取窗的各種函數。字符串類型，默認為None。各種類型

on: 可選參數。對於dataframe而言，指定要計算滾動窗口的列。值為列名。

axis: int、字符串，默認為0，即對列進行計算

closed：定義區間的開閉，支持int類型的window。對於offset類型默認是左開右閉的即默認為right。可以根據情況指定為left both等。

一、概念

為了處理數字數據，Pandas提供了幾個變體，如滾動，展開和指數移動窗口統計的權重。其中包括總和，均值，中位數，方差，協方差，相關性等；

所謂窗口，就是將某個點的取值擴大到包含這個點的一段區間，用區間來進行判斷；

移動窗口就是窗口向一端滑行，默認是從右往左，每次滑行並不是區間整塊的滑行，而是一個單位一個單位的滑行；

窗口函數主要用於通過平滑曲線來以圖形方式查找數據內的趨勢。如果日常數據中有很多變化，並且有很多數據點可用，那么采樣和繪圖就是一種方法，應用窗口計算並在結果上繪制圖形是另一種方法。通過這些方法，可以平滑曲線或趨勢。

二、rolling()

1. 參數說明

DataFrame.rolling(window, min_periods=None, center=False, win_type=None,

on=None, axis=0, closed=None)

window：表示時間窗的大小，有兩種形式：1)使用數值int，則表示觀測值的數量，即向前幾個數據；2)也可以使用offset類型，這種類型較復雜，使用場景較少，此處暫不做介紹；

min_periods：每個窗口最少包含的觀測值數量，小於這個值的窗口結果為NA。值可以是int，默認None。offset情況下，默認為1；

center: 把窗口的標簽設置為居中，布爾型，默認False，居右

win_type: 窗口的類型。截取窗的各種函數。字符串類型，默認為None；

on: 可選參數。對於dataframe而言，指定要計算滾動窗口的列。值為列名。

axis: 默認為0，即對列進行計算

closed：定義區間的開閉，支持int類型的window。對於offset類型默認是左開右閉的即默認為right。可以根據情況指定為left、both等。

2. 代碼示例

示例中，由於窗口大小為3(window)，前兩個元素有空值，第三個元素的值將是n，n-1和n-2元素的平均值。

import pandas as pd

import numpy as np

df = pd.DataFrame(np.random.randn(7, 4),

index = pd.date_range('1/1/2020', periods=7),

columns = ['A', 'B', 'C', 'D'])

A B C D

2020-01-01 -0.103252 -0.378633 -0.689324 -1.150870

2020-01-02 -0.838289 0.036139 -0.481754 -0.006116

2020-01-03 -0.832013 -0.770184 -1.818931 0.253601

2020-01-04 -1.696006 -0.021195 0.772365 0.332447

2020-01-05 -2.136677 1.088825 1.166188 0.140585

2020-01-06 -0.705095 0.709978 1.077941 0.055677

2020-01-07 0.990198 0.764884 0.858504 -0.903039

df.rolling(window=3).mean()

A B C D

2020-01-01 NaN NaN NaN NaN

2020-01-02 NaN NaN NaN NaN

2020-01-03 0.079891 -0.714177 -0.453193 0.232669

2020-01-04 -0.479782 -0.513903 -0.631638 0.034099

2020-01-05 -0.574793 -0.532310 -0.544511 -0.535417

2020-01-06 -0.675196 0.421606 -0.214320 -0.463122

2020-01-07 -0.118239 0.637363 -0.270283 -0.653187

df.rolling(window=3, min_periods=1).mean() 設置最少觀測值數量為1

A B C D

2020-01-01 -0.103252 -0.378633 -0.689324 -1.150870

2020-01-02 -0.470771 -0.171247 -0.585539 -0.578493

2020-01-03 -0.591185 -0.370893 -0.996670 -0.301128

2020-01-04 -1.122103 -0.251747 -0.509440 0.193311

2020-01-05 -1.554899 0.099149 0.039874 0.242211

2020-01-06 -1.512593 0.592536 1.005498 0.176237

2020-01-07 -0.617191 0.854562 1.034211 -0.235592

3. 常見用法

rolling()函數除了mean()，還支持很多函數，比如：

count() 非空觀測值數量

sum() 值的總和

median() 值的算術中值

min() 最小值

max() 最大

std() 貝塞爾修正樣本標准差

var() 無偏方差

skew() 樣品偏斜度(三階矩)

kurt() 樣品峰度(四階矩)

quantile() 樣本分位數(百分位上的值)

cov() 無偏協方差(二元)

corr() 相關(二進制)

借助 agg ()函數可以快速實現多個聚類函數，並輸出結果，同時還可以進行重命名；

代碼示例

df2 = pd.DataFrame({
"date": pd.date_range("2018-07-01", periods=7),

"amount": [12000, 18000, np.nan, 12000, 9000, 16000, 18000]})

df2

date amount

0 2018-07-01 12000.0

1 2018-07-02 18000.0

2 2018-07-03 NaN

3 2018-07-04 12000.0

4 2018-07-05 9000.0

5 2018-07-06 16000.0

6 2018-07-07 18000.0

窗口大小為2

df2.rolling(window=2, on="date").sum()

date amount

0 2018-07-01 NaN

1 2018-07-02 30000.0

2 2018-07-03 NaN

3 2018-07-04 NaN

4 2018-07-05 21000.0

5 2018-07-06 25000.0

6 2018-07-07 34000.0

窗口大小為2，最少觀測值數量為1

df2.rolling(window=2, on="date", min_periods=1).sum()

date amount

0 2018-07-01 12000.0

1 2018-07-02 30000.0

2 2018-07-03 18000.0

3 2018-07-04 12000.0

4 2018-07-05 21000.0

5 2018-07-06 25000.0

6 2018-07-07 34000.0

返回多個聚合結果，如sum()、mean()

df2.rolling(window=2, min_periods=1)["amount"].agg([np.sum, np.mean])

sum mean

0 12000.0 12000.0

1 30000.0 15000.0

2 18000.0 18000.0

3 12000.0 12000.0

4 21000.0 10500.0

5 25000.0 12500.0

6 34000.0 17000.0

返回多個聚合結果，並進行重命名

df2.rolling(window=2, min_periods=1)["amount"].agg({"amt_sum": np.sum, "amt_mean": np.mean})

amt_sum amt_mean

0 12000.0 12000.0

1 30000.0 15000.0

2 18000.0 18000.0

3 12000.0 12000.0

4 21000.0 10500.0

5 25000.0 12500.0

6 34000.0 17000.0

4. 延伸用法

通過rolling()函數與聚合函數的拼接，組成新的函數，可以更方便地實現窗口函數的功能；

這種用法，功能強大，代碼簡單，所有參數的設置基本一致；

列舉如下

rolling_count() 計算各個窗口中非NA觀測值的數量

rolling_sum() 計算各個移動窗口中的元素之和

rolling_mean() 計算各個移動窗口中元素的均值

rolling_median() 計算各個移動窗口中元素的中位數

rolling_var() 計算各個移動窗口中元素的方差

rolling_std() 計算各個移動窗口中元素的標准差

rolling_min() 計算各個移動窗口中元素的最小值

rolling_max() 計算各個移動窗口中元素的最大值

rolling_corr() 計算各個移動窗口中元素的相關系數

rolling_corr_pairwise() 計算各個移動窗口中配對數據的相關系數

rolling_cov() 計算各個移動窗口中元素的的協方差

rolling_quantile() 計算各個移動窗口中元素的分位數

5. 自定義函數

除了支持聚合函數，通過rolling().apply()方法，還可以在移動窗口上使用自己定義的函數，實現某些特殊功能；

唯一需要滿足的是，在數組的每一個片段上，函數必須產生單個值；

代碼示例

# 自定義方法：求和后，除以100

df2.rolling(2, min_periods=1)["amount"].apply(lambda x: sum(x)/100, raw=False)

0 120.0

1 300.0

2 NaN

3 NaN

4 210.0

5 250.0

6 340.0

三、expanding()

1. 參數說明

DataFrame.expanding(min_periods = 1，center = False，axis = 0)

expanding()函數的參數，與rolling()函數的參數用法相同；

rolling()函數，是固定窗口大小，進行滑動計算，expanding()函數只設置最小的觀測值數量，不固定窗口大小，實現累計計算，即不斷擴展；

expanding()函數，類似cumsum()函數的累計求和，其優勢在於還可以進行更多的聚類計算；

事實上，當rolling()函數的參數window=len(df)時，實現的效果與expanding()函數是一樣的。

2. 代碼示例

import pandas as pd

import numpy as np

df = pd.DataFrame(np.random.randn(10, 4),

index = pd.date_range('1/1/2018', periods=10),

columns = ['A', 'B', 'C', 'D'])

A B C D

2018-01-01 -0.349086 -0.225357 -0.108829 1.662773

2018-01-02 1.056407 -0.159644 0.042278 0.298922

2018-01-03 -1.376891 0.112999 -0.719286 0.254892

2018-01-04 0.741323 1.510449 0.615251 -1.896209

2018-01-05 1.305841 0.380900 -0.961663 -0.654108

2018-01-06 -1.079804 -0.883547 0.149659 -0.065931

2018-01-07 0.240168 -0.409613 -0.543655 0.797564

2018-01-08 0.716836 -0.329991 0.271236 -2.138515

2018-01-09 -1.448734 1.261487 0.795663 -1.492216

2018-01-10 -1.212092 -1.039160 1.581169 1.156089

df.expanding(min_periods=2).mean()

A B C D

2018-01-01 NaN NaN NaN NaN

2018-01-02 0.353660 -0.192500 -0.033276 0.980848

2018-01-03 -0.223190 -0.090667 -0.261946 0.738863

2018-01-04 0.017938 0.309612 -0.042647 0.080095

2018-01-05 0.275519 0.323869 -0.226450 -0.066746

2018-01-06 0.049632 0.122633 -0.163765 -0.066610

2018-01-07 0.076851 0.046598 -0.218035 0.056843

2018-01-08 0.156849 -0.000475 -0.156876 -0.217576

2018-01-09 -0.021549 0.139743 -0.051038 -0.359203

2018-01-10 -0.140603 0.021852 0.112182 -0.207674

# 判斷expanding()的求和結果，與cumsum()結果，相同

result1 = df.expanding(min_periods=1).sum()

result2 = df.cumsum()

np.allclose(result1, result2)

True

四、ewm()

該函數，表示指數加權滑動，使用場景較少，本文暫不做詳細介紹，后續用到了，會補充該部分內容。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 python pandas移動窗口函數rolling的用法 pandas窗口函數--rolling pandas rolling()根據時間窗口計算滾動（時間序列有關）【LabVIEW】實現窗口移動 Qt 窗口移動實現 jQuery移動漂浮窗口 python時間序列分析之_用pandas中的rolling函數計算時間窗口數據 QT 窗口拖拽移動實現 python移動窗口函數 python控制窗口移動（畫圓）

pd.rolling（） 窗口移動 expanding 累進

概念:

免責聲明！

pd.rolling（）窗口移動 expanding 累進