老白聊數據-關於銷售預測的那些事


小白混跡了幾年,現在是個老白了,看似啥玩意都懂點,啥玩意也都不精通,今天和大家說的是關於銷售預測的那些事,因為最近看了JDD大賽,也和幾個參賽隊員交流,有些有意思的想法,和大家分享一下。

最近在關注京東金融舉辦的JDD大賽,這個比賽比較有意思。大賽也是分了幾道賽題,比如豬臉識別,信貸需求預測,店鋪銷售預測,登錄行為識別,總的而言,比較貼近業務實際使用場景。比賽也是分了算法組和商業組,算法組是純粹的PK算法的效果,而商業組,除了完成算法的構建和評分排名,進入決賽的隊伍還要寫作BP,構建一個基於賽題基礎的商業模型。總體說,從京東金融的業務需要出發,本身題目具備商業價值,具體賽題信息如下圖:
今天就花點時間說說個人對其中店鋪銷售預測這道賽題的一些理解和認識。
在商業組中,官方如是描述賽題:對店鋪銷量進行預測是“京小貸”業務信用評估的關鍵環節之一,只有准確的預估店鋪未來的銷量,才能合理的設定貸款額度,提高資金利用率。
具體的賽題內容是:對店鋪開展貸款業務需要定期測量和跟蹤經營狀況,對店鋪銷量進行預測是其中的關鍵環節之一,只有准確的預估店鋪未來的銷量,才能准確的評估其資金需求並設定合理的貸款額度。本題目希望參賽者通過競賽數據中店鋪過往的銷售記錄,商品信息,商品評價,以及廣告費用等信息來建立預測模型,預測店鋪未來90天內的銷售額。賽題數據為業務情景競賽數據,所有數據均已進行了采樣和脫敏處理,字段取值與分布均與真實業務數據不同。
簡單說,通過精准預測銷售,掌握未來店鋪的業務情況,基於此,進行業務授信,發放貸款。這也就是說,當預測越精准,那么業務評估能力就越強,可以合理開展業務。
而京東給到的賽題數據具體如下:
評分標准如下:
對於每個店鋪,計算其真實銷量和預測銷量之間的差異,按如下公式計算分數,其中yi真實值,y_hati為預測值,m為待測店鋪數量:
換句話說,誰的得分越低,就是誤差更小,誰的預測效果更好。
我查看了店鋪銷售預測商業組的排行榜,發現了一些有意思的事情,你會看到大家的得分基本沒有拉開差距,第一名是0.393,而第三名是0.3945,也就是說大家在方法使用上,或者數據理解上,基本上差異性很小。可能在具體的嘗試過程中,由於數據的准備不同,帶來了一些細微差異,換句話這個榜單前三名的隨機性很強,基本沒什么差別。我們並沒有看到出現那種差距極大的隊伍出現。即使我們去看算法組的第一名得分也只是0.37。
商業組前10名得分
算法組前三名得分
那這個基本可以忽略的差距說明了什么問題,為什么沒有出現一騎絕塵的隊伍,對此我們此時需要回到這道題目本身來思考。
首先銷售預測問題的一些成熟算法和模型,我們不需要多言,你是時間序列也好,還是ARIMA,LR,BPNN也罷,總的說算法就那么多,想解決這個問題,是無法脫離這些的。那么為什么預測的水平上不去,仍舊高達30%的誤差?其實在官方給出的數據中,貌似給定了一定的預測所使用數據的邊界,也許數據本身就代表了這道題目的局限性。
我們會發現,官方給出來的用於預測的數據中,涵蓋了廣告充值,評論,上下架時間的數據。似乎想從這個數據方面,來極限考驗參賽團隊的算法和數據准備實力。
但是再換一個維度思考,也許這是京東認為的對於銷售預測相對有用的維度數據,當然了也涵蓋部分商品信息,比如品牌和分類,似乎從中都是要找到與銷售數字的相關性,進而提升預測准確性,不過我們發現商品相關信息,也只是關於品類這樣維度的數據。
從銷售預測本身來看,如果我們繪制一條某店鋪銷售曲線,我們會發現,頭部有一兩件商品的銷售占比很高,二其他很多產品銷售占比很低,或者是我們將店鋪商品進行歸類,某一類商品可能占據極高的銷售數字。這就是我們以前總提到的一個20/80原則,也叫做帕累托法則,也就是20%的人貢獻80%的業績。在這個數據中,其實這種情況也存在,比如少數商品貢獻多數收入的問題,少數店鋪貢獻多數收入。因此,在預測時,20/80原則實際上也是一種預測問題的處理思路,少數店鋪的銷售貢獻依賴少數商品,當然也依賴廣告或者評論的影響。不過從目前大家的分看,也許這幾個因素的權重總計在60%左右。
那么剩下40%的因素在哪里?因為理論上,我們的得分是0才對。
在這里和大家的討論是如何提高預測准確率的一種思考,換句話,也是尋找40%的因素的一種思路。
首先把銷售預測問題換個角度來看,就是判斷消費者購買的意願高低,再細致來看,就是消費者的購買動機或者購買決策的判斷,一旦找到那個准確的相關度最高的動機,那么就意味着,銷售的預測精度就會大幅度提升。從初賽這些人員的預測結果看,以現有的算法,意味着這些因素與購買動機的的相關度,僅限於這個得分了。
我們之前用於銷售預測的數據考慮了營銷因素(廣告),社交因素(評論),商品開發(上下架時間),但我們發現這些都是宏觀因素,但是今天的消費者慢慢趨於理性,會考慮評論因素,也會貨比三家,盡管價格還是一個很重要的因素。
但是我們發現作用很大的評論數據,在這里,被官方處理為正面評論,中性評論,負面評論,得說一句,這種數據的處理在數據集開放之前就做好了用1,0,-1來代替,但是對於語義的處理,划分三類標簽,會出現一些偏差,畢竟如何理解正面,中性,負面,這個人的經驗是不同的。這或許是本賽題中一個思考的方向。
不過如果排除這個因素我們會發現,似乎還是無法說明誤差為什么很大,這時我們需要跳出來看,我們似乎忘記了很多的微觀因素,比如商品本身的品質,參數,元素,顏色等等,這些不起眼的東西,也許正是最重要的驅動消費者購買的最重要動機。
在銷售預測問題上,如果我們能夠挖掘到用戶購買的微觀動機,也就是商品本身是否具備潛力和暢銷特性,那么就能很好的捕捉到店鋪的經營狀態。
回看這道比賽題目,我們是要完成對未來的預測,所以我們要掌握到未來的除了營銷計划,還有本身商品的屬性,未來的空間,當你能夠精准捕捉到哪些商品能夠具備爆款屬性時,就意味着,你看到了80%的銷售收入機會,同時,基於微觀商品的屬性,我們也會挖掘到哪些商品是滯銷的,是不適合進行推廣和上架的。對店鋪的授信同時,對於店鋪的經營,如果能夠形成的有效干預,則未來的雙向合作業務基礎才扎實。
簡單說,我們需要進行商品本身DNA的拆解,找到那些重要的影響購買的元素,而一旦捕捉到,則意味着,我們能夠掌握的潛力和經營方向可以更加明確。這個可以舉個例在,比如服飾行業,我們可以對一一件衣服進行解構,比如版型,面料,圖案,類型,風格,季節等,基於這些潛藏在衣服中的要素,進行從微觀元素組合起來的預測分析,尋找爆款元素和相對應的產品,因為這些控制了較大的銷售份額,同時那些滯銷的元素也能尋找出來,並且可以進行防范和處理,減少不必要的損失。
當然銷售預測的問題,我們都預測的是未來,如果在開始我們能夠提供未來可以很好銷售的產品,那么銷售的預測也將迎刃而解。這看似是廢話,其實,當中我們會發現怎么找到爆款產品,如何挖掘爆款,就潛藏在我們已有的數據之中。
而整體銷售的預測,除了宏觀因素的配合,這些內在微觀因素則是基礎,因為他們是構成消費者購買的驅動力之一,而每個商品的精准捕捉銷售可能性,也就計算出來整體的銷售可能性。
最后再說一點的是,其實你看評論數據,我們不能簡單的歸結成1,0,-1,消費者的評論中隱藏了很多對於產品某一方面的鍾愛或者厭惡,而這恰恰是其他消費群體看到后,是否產生驅動力購買的關鍵,以此出發,我們剛才的思路就可以順下來。
關於銷售預測的問題,今天就聊這么多。
如果大家感興趣交流,可以加微信號:i-analysis,繼續交流
 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM