用python做時間序列預測五：時間序列缺失值處理

本文轉載自查看原文 2020-06-08 20:06 2461 時間序列/ 機器學習

有的時候，一些時刻或連續時間段內的值無法采集到，或者本身就沒有值，本文將介紹如何處理這種情況。

一般而言，有以下幾種方法：

對所有的缺失值用零填充。

前向填充：比如用周一的值填充缺失的周二的值

后向填充：比如用周二的值填充缺失的周一的值

采用n最近鄰均值法填充：比如n取2，則用t-2,t-1，t+1,t+2時刻的平均值來填充缺失的t時刻的值。

單線性插值：取某個缺失值的時間點，做一條垂線相較於左右時刻的值的連接線，得到的交點作為填充值。類似下圖：

對應的python代碼實現：

from sklearn.metrics import mean_squared_error
df_orig = pd.read_csv('https://raw.githubusercontent.com/selva86/datasets/master/a10.csv', parse_dates=['date'], index_col='date').head(100)
df = pd.read_csv('datasets/a10_missings.csv', parse_dates=['date'], index_col='date')

fig, axes = plt.subplots(7, 1, sharex=True, figsize=(10, 12))
plt.rcParams.update({'xtick.bottom' : False})

## 1. Actual -------------------------------
df_orig.plot(title='Actual', ax=axes[0], label='Actual', color='red', style=".-")
df.plot(title='Actual', ax=axes[0], label='Actual', color='green', style=".-")
axes[0].legend(["Missing Data", "Available Data"])

## 2. Forward Fill --------------------------
df_ffill = df.ffill()
error = np.round(mean_squared_error(df_orig['value'], df_ffill['value']), 2)
df_ffill['value'].plot(title='Forward Fill (MSE: ' + str(error) +")", ax=axes[1], label='Forward Fill', style=".-")

## 3. Backward Fill -------------------------
df_bfill = df.bfill()
error = np.round(mean_squared_error(df_orig['value'], df_bfill['value']), 2)
df_bfill['value'].plot(title="Backward Fill (MSE: " + str(error) +")", ax=axes[2], label='Back Fill', color='firebrick', style=".-")

## 4. Linear Interpolation ------------------
df['rownum'] = np.arange(df.shape[0])
df_nona = df.dropna(subset = ['value'])
f = interp1d(df_nona['rownum'], df_nona['value'])
df['linear_fill'] = f(df['rownum'])
error = np.round(mean_squared_error(df_orig['value'], df['linear_fill']), 2)
df['linear_fill'].plot(title="Linear Fill (MSE: " + str(error) +")", ax=axes[3], label='Cubic Fill', color='brown', style=".-")

## 5. Mean of 'n' Nearest Past Neighbors ------def knn_mean(ts, n):
    out = np.copy(ts)
    for i, val in enumerate(ts):
        if np.isnan(val):
            n_by_2 = np.ceil(n/2)
            lower = np.max([0, int(i-n_by_2)])
            upper = np.min([len(ts)+1, int(i+n_by_2)])
            ts_near = np.concatenate([ts[lower:i], ts[i:upper]])
            out[i] = np.nanmean(ts_near)
    return out

df['knn_mean'] = knn_mean(df.value.values, 8)
error = np.round(mean_squared_error(df_orig['value'], df['knn_mean']), 2)
df['knn_mean'].plot(title="KNN Mean (MSE: " + str(error) +")", ax=axes[5], label='KNN Mean', color='tomato', alpha=0.5, style=".-")

ok,本篇就這么多內容啦~，感謝閱讀O(∩_∩)O。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Python處理時間序列缺失值 Pandas中時間序列缺失如何處理？用python做時間序列預測三：時間序列分解用python做時間序列預測一：初識概念用python做時間序列預測十：時間序列實踐-航司乘客數預測用python做時間序列預測9：ARIMA模型簡介用python做時間序列預測九：ARIMA模型簡介用python做時間序列預測二：時間序列的一般數據格式和可視化時間序列數據如何插補缺失值？用python做時間序列預測七：時間序列復雜度量化