M5比賽
M5競賽是M競賽中最新的一次,將於2020年3月2日至6月30日舉行。它與前四屆競賽有五個重要方面的差異,其中一些是M4競賽的討論者提出的。
- 它使用沃爾瑪慷慨提供的分層銷售數據,從商品級別開始,再匯總到美國三個地理區域(加利福尼亞州,德克薩斯州和威斯康星州)的部門,產品類別和商店。
- 除時間序列數據外,它還包括影響價格的解釋變量,例如價格,促銷,星期幾和特殊事件(例如超級碗,情人節和東正教復活節),這些變量用於提高預測准確性。
- 正在通過要求參與者提供有關四個指示性預測間隔和中位數的信息來評估不確定性的分布。
- 在超過42,840個時間序列中,大多數顯示間歇性(零銷售,包括零銷售)。
- 代替具有單個競爭來估計點預測和不確定性分布,將有兩個2個使用平行的軌道相同的數據集,所述第一要求28天向前指向的預測和所述第二28天提前為中位數和四個預測概率預報間隔(50%,67%,95%和99%)。
- 第一次,它着重於顯示間歇性的序列,即偶發的需求,包括零。
目標
M5競賽的目標與前四個相似:即針對需要預測並進行不確定性估計的不同類型的情況,確定最合適的方法。其最終目的是推進預測理論並提高商業和非營利組織的利用率。它的另一個目標是將ML和DL方法的准確性/不確定性與標准統計方法的准確性/不確定性進行比較,並評估可能的改進與使用各種方法的額外復雜性和更高的成本。
期望與方法內容
鑒於前四屆M競賽的成功,吸引了眾多參與者,並且做出了巨大貢獻,從根本上改變了預測領域,針對快速發展的數據科學的M5競賽有望取得相似甚至更高的成就。
社區,可以輕松訪問M5數據集。它將使用Kaggle平台運行,預計參與者人數將達到數千。
目標
M5預測比賽的目標是通過確定為比賽的42840個時間序列中的每個時間序列提供最准確的點預測的方法來推進預測的理論和實踐。另外,為了獲得盡可能精確地估計這些序列的已實現值的不確定性分布的信息。
為此,M5的參賽者被要求為所有系列比賽提供28天的提前點預測(PFs),以及相應的中位數和50%、67%、95%和99%的預測區間(PIs)。
M5在五個重要方面與前四個有所不同,M4比賽的討論者建議如下:
- 它使用分組單位銷售數據,從產品商店級別開始,匯總到產品部門、產品類別、商店和三個地理區域:加利福尼亞州(CA)、德克薩斯州(TX)和威斯康星州(WI)。
- 除了時間序列數據外,它還包括解釋性變量,如銷售價格、促銷活動、一周中的幾天,以及特別活動(如超級碗、情人節和正統復活節),這些活動通常會影響單位銷售額,並可提高預測的准確性。
- 除了點預測之外,它還評估不確定性的分布,因為要求參與者提供關於九個指示性分位數的信息。
- 與單一競爭來估計點預測和不確定性分布不同,將有兩條使用同一數據集的平行軌跡,第一條需要提前28天預測點,第二條需要提前28天預測中值和四個預測區間的概率預測(50%、67%、95%,以及99%。
- 它首次將重點放在顯示間歇性的序列上,即包括零在內的零星需求。
時間與舉辦
M5將於2020年3月2日開始,同年6月30日結束。比賽將使用Kaggle平台進行。因此,我們期望所有類型的預測者,包括數據科學家、統計學家和實踐者提交許多資料,擴大預測領域,並最終整合其各種方法,以提高准確性和不確定性估計。
比賽將使用同一數據集,分為兩個單獨的卡格爾比賽,第一個(M5預測比賽-准確度)需要提前28天進行預測,第二個(M5預測比賽-不確定度)需要提前28天進行相應中值和四個預測區間的概率預測(50%,67%,95%和99%)。
為了支持參賽者驗證他們的預測方法,比賽將包括一個驗證階段,從2020年3月2日到同年5月31日。在這一階段,參與者將被允許使用組織者最初提供的數據來訓練他們的預測方法,並使用一個28天的隱藏樣本來驗證他們的方法的性能,該樣本沒有公開。通過在Kaggle平台提交他們的預測(每天最多5個條目),參與者將被告知他們提交的分數,然后將在Kaggle的實時排行榜上公布。考慮到這種即時反饋,參與者可以通過從收到的反饋中學習,有效地修改和重新提交他們的預測。
驗證階段結束后,即從2020年6月1日至同年6月30日,將向參與者提供驗證階段用於評估其績效的28天數據的實際值。然后,他們將被要求重新估計或調整(如果需要)他們的預測模型,以便提交他們在隨后28天的最終預測和預測間隔,即用於對參與者進行最終評估的數據。在此期間,將沒有排行榜,這意味着在提交預測后,將不會向參與者提供有關其分數的反饋。因此,盡管參與者可以隨時自由地(重新)提交他們的預測(每天最多5個條目),但他們不會知道他們的絕對預測以及他們的相對表現。參賽者的最終排名將只在比賽結束時公布,屆時將公布測試數據。這樣做是為了讓競爭對手盡可能地模擬現實,因為在現實生活中預測者並不知道未來。
請注意,提交系統將在比賽開始時開放,這意味着參賽者將能夠在2020年3月2日至2020年6月30日提交最終預測,即使是在驗證階段。然而,如前所述,完整的M5培訓樣本(包括用於驗證階段排行榜的28天)將於2020年6月1日才提供。因此,在驗證階段提交最終預測的任何參與者都將錯過完整培訓樣本的最后28天。
另請注意,M5將分為兩個軌道,一個需要預測點,另一個需要估計不確定性分布,每個軌道的獎金分別為50000美元。因此,在Kaggle平台上可以看到兩個單獨的比賽,每個比賽都有各自的排行榜。參賽者可參加比賽,並有資格獲得第一、第二或兩者的獎品。
數據集
由沃爾瑪慷慨提供的M5數據集涉及在美國銷售的各種產品的單位銷售額,以分組時間序列的形式組織。更具體地說,該數據集涉及3049種產品的單位銷售額,分為3個產品類別(愛好、食品和家庭)和7個產品部門,其中對上述類別進行了分類。
這些產品在三個州(加州、德克薩斯州和威斯康星州)的十家商店銷售。在這方面,層次結構的底層,即產品商店單元銷售,可以映射到產品類別或地理區域,如下所示:


圖1:M5系列如何組織的概述。
歷史數據范圍為2011年1月29日至2016年6月19日。因此,產品的(最大)銷售歷史為1941天/5.4年(不包括h=28天的測試數據)。
M5數據集由以下(3)個文件組成:
File 1: “calendar.csv”
該數據數聚包含物品的售賣時間與物品類型
- date: The date in a “y-m-d” format.
- wm_yr_wk: The id of the week the date belongs to.
- weekday: The type of the day (Saturday, Sunday, …, Friday).
- wday: The id of the weekday, starting from Saturday.
- month: The month of the date.
- year: The year of the date.
- event_name_1: If the date includes an event, the name of this event.
- event_type_1: If the date includes an event, the type of this event.
- event_name_2: If the date includes a second event, the name of this event.
- event_type_2: If the date includes a second event, the type of this event.
- snap_CA, snap_TX, and snap_WI: A binary variable (0 or 1) indicating whether the stores of CA, TX or WI allow SNAPpurchases on the examined date. 1 indicates that SNAP purchases are allowed.
File 2: “sell_prices.csv”
該數據數聚包含物品的每天每單位的售賣價格
- store_id: The id of the store where the product is sold.
- item_id: The id of the product.
- wm_yr_wk: The id of the week.
- sell_price: The price of the product for the given week/store. The price is provided per week (average across seven days). If not available, this means that the product was not sold during the examined week. Note that although prices are constant at weekly basis, they may change through time (both training and test set).
File 3: “sales_train.csv”
Contains the historical daily unit sales data per product and store.
- item_id: The id of the product.
- dept_id: The id of the department the product belongs to.
- cat_id: The id of the category the product belongs to.
- store_id: The id of the store where the product is sold.
- state_id: The State where the store is located.
- d_1, d_2, …, d_i, … d_1941: The number of units sold at day i, starting from 2011-01-29.
評價方法
預測期
點預測和概率預測所需的預測數為h=28天(提前4周)。
首先,通過在預測范圍內平均每個序列的值,分別計算每個序列的性能度量,然后以加權方式(見下文)在序列內再次平均,以獲得最終分數。
點預測
將使用均方根標度誤差(RMSSE)來評估點預測的准確性,RMSSE是由Hyndman和Koehler(2006)提出的著名的平均絕對標度誤差(MASE)的變體。每個系列的測量值計算如下:
哪里
是t點上被檢驗時間序列的實際未來值,
生成的預測,n為訓練樣本的長度(歷史觀測數),h為預測范圍。
請注意,RMSSE的分母僅在被檢查產品被積極銷售的時間段內計算,即在對被評估系列觀察到的第一個非零需求之后的時間段。
措施的選擇理由如下:
· · M5系列的特點是間歇性,涉及零星的單位銷售與大量零。這意味着,為中位數優化的絕對誤差會給預測方法分配較低的分數(更好的性能),從而得出接近於零的預測。
然而,M5的目標是准確預測平均需求,因此,所使用的精度測量建立在平方誤差的基礎上,平方誤差是針對平均值進行優化的。
- 該方法與尺度無關,這意味着它可以有效地用於比較不同尺度的序列預測。
- 與其他度量相比,它可以安全地計算,因為它不依賴於具有等於或接近於零的值的除法(例如,當
或用於縮放的基准的誤差為零時的相對誤差)。 - 這項措施對正、負預測誤差以及大、小預測進行同等懲罰,因此是對稱的。
在對比賽的所有42840個時間序列的RMSSE進行估計之后,將使用加權RMSSE(WRMSSE)對參與方法進行排名,如本指南后面所述,使用以下公式:
哪里
是
系列比賽。WRMSSE分數越低越好。
請注意,每個系列的權重將根據數據集的培訓樣本的最后28個觀察值計算,即每個系列在該特定時期內顯示的累計實際美元銷售額(單位銷售額的總和乘以其各自的價格)。計算WRMSSE的指示性示例將在競爭對手的GitHub[5]存儲庫中提供。
概率預報
概率預報的精度將用標度彈球損失(SPL)函數進行評估。每個系列和分位數的測量值計算如下:

哪里
是t點上被檢驗時間序列的實際未來值,
生成的分位數u的預測,h的預測范圍,n的訓練樣本長度(歷史觀察的數量),1的指標函數(如果Y在假設區間內,則為1,否則為0)。
與RMSSE一樣,SPL的分母僅在檢查項目/產品被積極銷售的時間段內計算,即在對被評估系列觀察到的第一個非零需求之后的時間段。
鑒於預測者將被要求提供中位數,以及50%、67%、95%和99%的PIs,
設置為u1=0.005、u2=0.025、u3=0.165、u4=0.25、u5=0.5、u6=0.75、u7=0.835、u8=0.975和u9=0.995。u的較小值對應於分布的左側,而較高值對應於分布的右側,其中u=0.5為中值。中位數以及50%和67%的PIs提供了一個很好的分布中間的感覺,而95%和99%的PIs提供了關於其尾部的信息,這對於極高或極低結果的風險是很重要的。
在對比賽的所有42840時間序列和所有請求的分位數估計SPL之后,將使用本指南后面描述的加權SPL(WSPL)除以9(所有序列中9個分位數的平均性能),使用以下公式對參與方法進行排序:

哪里
是
系列比賽
這個
從被檢查的分位數中取出。WSPL得分越低越好。
措施的選擇理由如下:
·PL的縮放方式與RMSSE類似,這意味着它可以有效地用於比較不同尺度的序列預測。此外,SPL可以安全地計算,因為它不依賴於值可以等於零的除法。
·由於M5不關注特定的決策問題,也不定義這樣一個問題的確切參數(這也可能因聚合級別和序列的不同而不同),因此很明顯,所有分位數都可能是有用的。此外,由於M5的目標是盡可能精確地估計檢驗序列的已實現值的不確定度分布,因此認為分布的兩邊和兩端都是相關的。在這方面,沒有給被檢查的分位數分配特殊的權重,因此它們的權重相等。
請注意,每個系列的權重將再次基於數據集的培訓樣本的最后28個觀察值計算,即每個系列在該特定時期內顯示的累計實際美元銷售額(單位銷售額的總和乘以其各自的價格)。計算WSPL的指示性示例將在競爭對手的GitHub存儲庫中提供。
加權
與之前的M競爭不同,M5涉及以分層方式組織的不同銷售量和價格的各種產品的單位銷售。這意味着,就業務而言,為了使方法表現良好,它必須在所有層級提供准確的預測,特別是對於高度重要的系列,即代表重大銷售的系列,以美元計量。換言之,我們期望從性能最好的預測方法中得出對公司更有價值的序列的較低預測誤差。
為此,每個參與方法(RMSSE和SPL)計算的預測誤差將根據其累計實際美元銷售額在M5系列中進行加權,這是一個很好且客觀的貨幣價值代表。累積美元銷售額將使用培訓樣本的最后28個觀察值(單位銷售額的總和乘以其各自的價格)計算,即等於預測期的期間。請注意,由於出售的單元數量和它們各自的價格隨着時間的變化而變化,此估計是基於相應的每日美元銷售額之和。
以下是一個簡單的示例,說明如何計算這些權重:
假設同一部門的兩種產品,A和B,在WI的一家商店里銷售,我們有興趣預測這兩種產品的單位銷售額及其總銷售額。因此,在本例中,我們考慮兩個不同的聚合級別(K=2),第一個級別由兩個系列(系列A和B)組成,第二個級別由單個系列(系列A和B之和)組成。
在培訓樣本的最后28天,產品A的銷售額總計為10美元,而產品B的銷售額為12美元。因此,過去28天,A和B產品的美元總銷售額為22美元。還假設使用預測方法導出產品a、產品B及其總單位銷售額的點預測,分別顯示錯誤RMSSE a=0.8、RMSSE B=0.7和RMSSE=0.77。如果M5數據集只涉及這三個序列,那么該方法的最終WRMSSE得分將是
![]()

.
如前所述,可以擴展此加權方案以考慮更多的商店、地理區域、產品類別和產品部門。由於M5競爭涉及12個聚合級別,因此K被設置為12,並計算序列的權重,以便在每個聚合級別將其相加為1。
分別用上述公式中用於估計WRMSSE的RMSSE替換為SPL來計算WSPL。
請注意,所有層級的權重都是相等的。原因是,一個產品在所有三個州的總美元銷售額,等於在所有十個商店的美元銷售額之和。同樣,因為商店的產品類別的總美元銷售額等於該類別所包含部門的美元銷售額之和,以及相應部門產品的美元銷售額之和。此外,正如前面討論的概率預測的情況,M5不關注特定的決策問題,這意味着沒有理由對層次結構的各個層次進行不平等的加權。
計算WRMSSE和WSPL的指示性示例將在競爭對手的GitHub存儲庫中提供,其中指明競爭對手中每個系列的確切權重。
獎品
獎金分配
將有12個主要獎項授予M5比賽的獲勝者,這些獎項將根據(i)他們的預測優於的等級和(ii)更好地捕捉到的不確定性分布的分位數在參與者之間進一步分配。該獎項將於2020年12月8日在紐約市舉行的M5預測會議期間頒發。在這一天,Kaggle將使用其合作公司Payneer以數字方式發布支付。
10萬美元獎金將在預測和不確定性M5競賽中平均分配如下:
| 獎品編號 |
獎品 |
數量 |
| 1A號 |
最准確的點預測 |
25000美元 |
| 二甲 |
第二准確點預測 |
10000美元 |
| 3A級 |
第三准確點預測 |
5000美元 |
| 4A級 |
第四准確點預測 |
3000美元 |
| 5A級 |
第五准確點預測 |
2000美元 |
| 六甲 |
最准確的學生積分預測 |
5000美元 |
|
|
總計:M5預測競爭點預測 |
50000美元 |
|
|
|
|
| 1B段 |
不確定度分布的最精確估計 |
25000美元 |
| 2B級 |
不確定度分布的第二精確估計 |
10000美元 |
| 3B段 |
不確定度分布的第三精確估計 |
5000美元 |
| 4B級 |
不確定度分布的第四精確估計 |
3000美元 |
| 50億 |
不確定度分布的第五精確估計 |
2000美元 |
| 6億 |
不確定度分布的最精確學生估計 |
5000美元 |
|
|
總計:M5預測競爭-不確定性分布 |
50000美元 |
|
|
|
|
| 總計:M5比賽 |
10萬美元 |
|
再現性
獲獎的前提條件是,除提供預測服務的公司和聲稱擁有專有軟件的公司外,用於生成預測的代碼將在比賽結束后14天內(即2020年7月14日)在GitHub上發布。此外,還必須說明如何准確再現M5提交的預測。在這方面,個人和公司將能夠使用守則和所提供的指示,將制定守則的個人/集團記入貸方,以改進其組織預測。
提供預測服務的公司和那些聲稱擁有專有軟件的公司必須向組織者提供他們的預測是如何作出的詳細描述,以及再現他們的預測的來源或執行文件。鑒於客觀性和可復制性的重要性,此類描述和文件對於贏得比賽的任何獎項都是強制性的。如果源程序需要保密,則可以提交執行文件,或者,也可以提交具有運行終止日期的源程序。
在收到復制所提交預測的代碼/程序/文件后,組織者將根據再現性評估其結果。由於某些方法可能涉及隨機初始化,因此任何顯示可復制率高於98%的方法都將被視為完全可復制並被授予獎品,與M4中所做的完全相同。否則,該獎項將頒給下一屆表現最佳、完全可復制的參賽作品。
出版物
類似於M3和M4比賽,《國際預測雜志》(IJF)將專門出版一期專刊,專門討論M5比賽的各個方面,特別強調我們所學到的知識以及如何利用這些知識改進預測的理論和實踐,並擴大其有用性和適用性。
基准
與M4比賽一樣,將有基准方法,24(24)個用於點預測,6(6)個用於概率預測。由於這些方法是眾所周知的、現成的和簡單易用的,提交給M5競賽的新的精度必須提供更高的精度,以便在實踐中加以考慮和使用(同時考慮到使用比計算要求最低的基准更精確的方法所需的計算時間)。
點預測
統計基准
1.朴素模型:隨機游走模型,定義為
![]()
預測方法用於預測層次結構最底層(表1的12層)的序列,然后使用自下而上的方法進行調節。
2.季節型朴素模型:很簡單,但這次模型的預測值等於同一時期的最后一次已知觀測值,以便捕捉可能的每周季節變化。預測方法用於預測層次結構最底層(表1的12層)的序列,然后使用自下而上的方法進行調節。
3.簡單指數平滑[6](SES):最簡單的指數平滑模型,旨在預測沒有趨勢的序列,定義為
![]()
平滑參數a通過最小化模型的樣本均方誤差(MSE)從范圍[0.1,0.3]中選擇,而序列的第一個觀測值用於初始化。預測方法用於預測層次結構最底層(表1的12層)的序列,然后使用自下而上的方法進行調節。
4.移動平均(MA):預測是通過對序列的最后k個觀測值進行平均來計算的,如下所示
![]()
其中k是通過最小化樣本MSE從范圍[2,5]中選擇的。預測方法用於預測層次結構最底層(表1的12層)的序列,然后使用自下而上的方法進行調節。
5.克羅斯頓方法[7](CRO):克羅斯頓提出的預測顯示間歇性需求序列的方法。該方法將原始序列分解為非零需求量
以及需求間隔
,預測結果如下:
![]()
其中兩者
和
使用SES預測。兩個組件的平滑參數均設置為0.1。組件的第一次觀察用於初始化。預測方法用於預測層次結構最底層(表1的12層)的序列,然后使用自下而上的方法進行調節。
6.優化克羅斯頓法(optCro):像CRO一樣,但是這次平滑參數是從范圍[0.1,0.3]中選擇的,就像使用SES一樣,以便允許更大的靈活性。使用(潛在的)不同的a參數分別平滑非零需求大小和需求間隔。預測方法用於預測層次結構最底層(表1的12層)的序列,然后使用自下而上的方法進行調節。
7.Syntetos-Boylan近似[8](SBA):克羅斯頓方法的一種變體,它使用如下的借記因子:
![]()
預測方法用於預測層次結構最底層(表1的12層)的序列,然后使用自下而上的方法進行調節。
8.Teunter Syntetos-Babai方法[9](TSB):對Croston方法的修改,該方法用需求概率替換需求間隔分量,
,如果在時間t發生需求,則為1,否則為0。類似於克羅斯頓的方法,
使用SES進行預測。的平滑參數
和
可能與optCRO完全不同。預測如下:
![]()
預測方法用於預測層次結構最底層(表1的12層)的序列,然后使用自下而上的方法進行調節。
9.總分解間歇需求法[10](ADIDA):時間聚集用於減少零觀測值的存在,從而減輕間隔中觀測到的方差的不良影響。ADIDA使用大小相等的時間段來執行非重疊的時間聚合,並在預先指定的提前期內預測需求。時間段設置為平均需求間隔。SES用於獲取預測。預測方法用於預測層次結構最底層(表1的12層)的序列,然后使用自下而上的方法進行調節。
10.間歇多重聚集預測算法[11](iMAPA):在需求預測中實現時間聚集的另一種方法。然而,與考慮單一聚合級別的ADIDA不同,iMAPA考慮多個聚合級別,目的是捕獲不同的數據動態。因此,iMAPA通過平均使用SES生成的導出點預測來進行。最大聚合級別設置為等於最大請求間間隔。預測方法用於預測層次結構最底層(表1的12層)的序列,然后使用自下而上的方法進行調節。
11.指數平滑[12]-自上而下(ES_td):利用一種算法來選擇最合適的指數平滑模型來預測層次結構的頂層序列(表1的1級),通過信息准則來表示。自上而下的方法用於調節(基於過去28天的估計歷史比例)。
12.指數平滑-自下而上(ES_bu):使用一種算法來選擇最合適的指數平滑模型來預測層次結構的底層序列(表1的12級),通過信息准則來表示。預測方法用於預測層次結構最底層(表1的12層)的序列,然后使用自下而上的方法進行調節。
13.指數平滑解釋變量(ESX):與ES類似,但這次使用了兩個解釋變量作為回歸函數,通過提供有關未來的附加信息來提高預測精度。第一個變量是離散的,根據在檢查日期允許快速購買的狀態數,取0、1、2或3的值。第二個變量是二進制的,指示檢查日期是否包含特殊事件(1)或不包含特殊事件(0)。自上而下的方法用於調節(基於過去28天的估計歷史比例)。
14.自回歸綜合移動平均值[13]-自上而下(ARIMA_td):采用一種算法來選擇最合適的ARIMA模型來預測層次結構的頂層序列(表1的1級),通過信息准則來表示。自上而下的方法用於調節(基於過去28天的估計歷史比例)。
15.自回歸綜合移動平均線-自下而上(ARIMA_bu):使用一種算法來選擇最合適的ARIMA模型來預測層次結構的底層序列(表1的12層),通過信息准則來表示。預測方法用於預測層次結構最底層(表1的12層)的序列,然后使用自下而上的方法進行調節。
16.帶解釋變量的自回歸綜合移動平均(ARIMAX):與ARIMA類似,但這次使用了兩個外部變量作為回歸函數,通過提供有關未來的附加信息來提高預測精度,與ESX的情況完全相同。自上而下的方法用於調節(基於過去28天的估計歷史比例)。
機器學習基准
17.多層感知器(MLP):由14個輸入節點(最后兩周的可用數據)、28個隱藏節點和一個輸出節點組成的單個隱藏層NN。采用比例共軛梯度法估計隨機初始化的權值,最大迭代次數設為500。隱層和輸出層的激活函數分別為logistic函數和線性函數。總共,訓練10個mlp來預測每個序列,然后使用中值算子對各個預測進行平均,以減少由於權重初始化不當而可能出現的變化。預測方法用於預測層次結構最底層(表1的12層)的序列,然后使用自下而上的方法進行調節。
18.隨機森林(RF):這是一個多元回歸樹的組合,每個回歸樹取決於獨立采樣的具有相同分布的隨機向量的值。考慮到RF平均了多棵樹的預測,它對噪聲的魯棒性更強,也不太可能過度擬合訓練數據。我們考慮總共500棵未修剪的樹和四個隨機抽樣變量在每個分裂。引導采樣是通過替換完成的。與MLP一樣,該序列的最后14個觀測值被考慮用於訓練模型。預測方法用於預測層次結構最底層(表1的12層)的序列,然后使用自下而上的方法進行調節。
19.全局多層感知器(GMLP):與MLP類似,但這次,不是為每個系列訓練多個模型,而是構建一個跨所有系列學習的模型。這是因為M4表明了交叉學習的有益效果。每個序列的最后14個觀測值作為輸入,以及關於非零需求變化系數(CV2)和兩個連續非零需求之間的平均時段數(ADI)的信息。使用這些附加信息是為了促進跨一系列不同特征的學習。預測方法用於預測層次結構最底層(表1的12層)的序列,然后使用自下而上的方法進行調節。
20.全局隨機森林(GRF):與GMLP類似,但不是使用MLP來獲取預測,而是利用RF。預測方法用於預測層次結構最底層(表1的12層)的序列,然后使用自下而上的方法進行調節。
組合基准
21.使用自下而上方法計算的ES和ARIMA的平均值(Com_b):ESúbu和ARIMAúbu的簡單算術平均數。
22.使用自上而下方法(Com)計算的ES和ARIMA的平均值:ES_td和ARIMA_td的簡單算術平均數。
23.兩種ES方法的平均值,第一種使用自上而下方法計算,第二種使用自下而上方法(Com_-tb):ES_td和ES_bu的簡單算術平均數。
24.全球和本地MLP的平均值(Com_lg):MLP和GMLP的簡單算術平均值。然后使用自下而上的方法進行對帳。
請注意,基准方法{1-10、12、15、17-20}應用於層次結構數據集的產品存儲級別。因此,自下而上的方法被用於獲取其余層次結構級別的已協調預測。另一方面,基准方法{11、13、14、16}被應用於層次結構數據集的頂層。因此,自上而下的方法用於獲得其余層級的調整預測(基於過去28天的估計歷史比例)。
概率預報
一、 天真的:與用於計算點預測的Naive 1類似的實現。
二、季節性天真的:與用於計算點預測的sNaive實現類似。
三、簡單指數平滑(SES):類似於用於計算點預測的SES實現。
四、指數平滑:與用於計算點預測的ES_bu實現類似。
五、 自回歸綜合移動平均(ARIMA):類似於用於計算點預報的ARIMA_bu算法。
六、核密度估計(核):核函數用於估計歷史數據中相應的分位數,然后將其用作概率預測。
生成上述基准預測的代碼將在競爭對手的GitHub存儲庫中提供。
基准沒有資格獲得獎金,這意味着即使基准的表現優於參與者提交的預測,總金額也將分配給競爭對手。同樣,與組織者和數據提供程序關聯的任何參與方法都將不符合價格要求。
提交
兩項比賽的預測將通過Kaggle平台提交。組織者通過平台提供的模板可用於此目的。
注意,點預測模板(M5預測-准確度)僅指30490系列,該系列包括數據集的最低層次(表1的12級),而不是競爭的所有42840(表1的所有級)。之所以這樣做,是因為M5與M4、M3和其他預測競爭(時間序列大多不相關)不同,它處理的是現實生活中的分層預測問題。這意味着提交的預測必須遵循這一層次概念,並因此保持一致(較低級別的預測必須與較高級別的預測相加)。換言之,假設用於預測所有42840系列競爭性相關預測的預測方法,並且因此,可以通過將層次結構中最低層次的預測相加(求和)來自動計算所有層次的預測。
需要注意的是,參與者可以完全自由地使用他們選擇的預測方法來預測單個序列。但是,這樣做之后,只要提交最低水平的預測,就可以假定,在提交最后評估之前,已核對了得出的預測。
例如,參與者可以僅預測底層的序列,並使用自下而上的調節方法導出剩余的預測。另一個參與者可能只預測頂層的序列,並使用比例(自上而下的調節方法)得到較低層的序列。前兩種方法也可以混合使用(中間調節法)。最后,預測各層次的序列,並通過適當的加權方案得到最低層次的序列也是一種選擇。基准描述了其中一些選項,包括一些指示性預測方法,這些方法利用自下而上(例如基准12)和自上而下(例如基准11)調節方法,以及這兩種方法的組合(例如基准23)。
最后,考慮到沒有一種直接且行之有效的方法來協調概率預測,概率預測模板(M5預測-不確定性)要求輸入所有42840系列競爭。因此,在這種情況下,參與者不需要使用上述任何方法來協調預測。
