拓端tecdat|R語言結合新冠疫情COVID-19對股票價格預測：ARIMA，KNN和神經網絡時間序列分析

本文轉載自查看原文 2021-10-27 22:01 110

?p=24057

原文出處：拓端數據部落公眾號

1.概要

本文的目標是使用各種預測模型預測Google的未來股價，然后分析各種模型。Google股票數據集是使用R中的Quantmod軟件包從Yahoo Finance獲得的。

2.簡介

預測算法是一種試圖根據過去和現在的數據預測未來值的過程。提取並准備此歷史數據點，來嘗試預測數據集所選變量的未來值。在市場歷史期間，一直有一種持續的興趣試圖分析其趨勢，行為和隨機反應。不斷關注在實際發生之前先了解發生了什么，這促使我們繼續進行這項研究。我們還將嘗試並了解 COVID-19對股票價格的影響。

3.所需包

library(quantmod) R的定量金融建模和交易框架
library(forecast) 預測時間序列和時間序列模型
library(tseries) 時間序列分析和計算金融。
library(timeseries) 'S4'類和金融時間序列的各種工具。
library(readxl) readxl包使你能夠輕松地將數據從Excel中取出並輸入R中。
library(kableExtra) 顯示表格
library(data.table) 大數據的快速聚合
library(DT) 以更好的方式顯示數據
library(tsfknn) 進行KNN回歸預測

4.數據准備

4.1導入數據

我們使用Quantmod軟件包獲取了Google股票價格2015年1月1日到2020年4月24日的數據，用於我們的分析。為了分析COVID-19對Google股票價格的影響，我們從quantmod數據包中獲取了兩組數據。

首先將其命名為data_before_covid，其中包含截至2020年2月28日的數據。
第二個名為data_after_covid，其中包含截至2020年4月24日的數據。

所有分析和模型都將在兩個數據集上進行，以分析COVID-19的影響（如果有）。

getSymbols("GOG" fro= "2015-01-01", to = "2019-02-28")
before_covid <-dafae(GOOG)
getSymbols("GOG" , frm = "2015-01-01")
after_covid <- as.tae(GOOG)

4.2數據的圖形表示

par(mfrow = c(1,2))
plot.ts(fore_c)

4.3數據集預覽

最終數據集可以在下面的交互式表格中找到。

table(before_covid)

4.4變量匯總

變量	描述
Open	當日股票開盤價
High	當日股票最高價
Low	當日股價最低
Close	當日股票收盤價
Volumn	總交易量
Adjusted	調整后的股票價格，包括風險或策略

5. ARIMA模型

我們首先分析兩個數據集的ACF和PACF圖。

par(mfrow = c(2,2))
acft(bfoe_covid)
pacf(bfre_covid)

然后，我們進行 ADF（Dickey-Fuller） 檢驗和 KPSS（Kwiatkowski-Phillips-Schmidt-Shin） 檢驗，檢驗兩個數據集收盤價的時間序列數據的平穩性。

print(adf.test)

print(adfes(sata_after_covid))

通過以上ADF檢驗，我們可以得出以下結論：

對於COVID-19之前的數據集，ADF檢驗給出的p值為 0.2093，該值大於0.05，因此說明時間序列數據 不是平穩的。
對於COVID-19之后的數據集，ADF檢驗給出的p值為0.01974，該值 小於0.05，這說明時間序列數據是 平穩的。

print(kpss.s(t_before_covid))

print(kpss.est(Dafter_covid))

通過以上KPSS檢驗，我們可以得出以下結論：

對於COVID-19之前的數據集，KPSS檢驗得出的p值為 0.01，該值小於0.05，因此說明時間序列數據 不是平穩的。
對於COVID-19之后的數據集，KPSS檢驗給出的p值為 0.01，該值小於0.05，這說明時間序列數據 不是平穩的。

因此，我們可以從以上兩個檢驗得出結論，時間序列數據 不是平穩的。

然后，我們使用 auto 函數來確定每個數據集的時間序列模型。

 auto.ar(befor_covid, lamd = "auto")

 auto.arma(after_covid)

從auto函數中，我們得出兩個數據集的以下模型：

在COVID-19之前：ARIMA（2,1,0）
在COVID-19之后：ARIMA（1,1,1）

獲得模型后，我們將對每個擬合模型執行殘差診斷。

par(mfrow = c(2,3))
plot(before_covidresiduals)
plot(mfter_covidresiduals)

從殘差圖中，我們可以確認殘差的平均值為0，並且方差也為常數。對於滯后> 0，ACF為0，而PACF也為0。

因此，我們可以說殘差表現得像白噪聲，並得出結論：ARIMA（2,1,0）和ARIMA（1,1,1）模型很好地擬合了數據。或者，我們也可以使用Box-Ljung檢驗在0.05的顯着性水平上進行檢驗殘差是符合白噪聲。

Box.test(moderesiduals)

Box.tst(moeit_fter_covidreia, type = "Ljung-Box")

在此，兩個模型的p值均大於0.05。因此，在顯着性水平為0.05的情況下，我們無法拒絕原假設，而得出的結論是殘差遵循白噪聲。這意味着該模型很好地擬合了數據。

一旦為每個數據集確定了模型，就可以預測未來幾天的股票價格。

6. KNN回歸時間序列預測模型

KNN模型可用於分類和回歸問題。最受歡迎的應用是將其用於分類問題。現在，使用r軟件包，可以在任何回歸任務應用KNN。這項研究的目的是說明不同的預測工具，對其進行比較並分析預測的行為。在我們的KNN研究之后，我們提出可以將其用於分類和回歸問題。為了預測新數據點的值，模型使用“特征相似度”，根據新點與訓練集上點的相似程度為值分配新點。

第一項任務是確定我們的KNN模型中的k值。選擇k值的一般經驗法則是取樣本中數據點數的平方根。因此，對於COVID-19之前的數據集，我們取k = 32；對於COVID-19之后的數據集，我們取k = 36。