logistics回歸
1.影響關系研究是所有研究中最為常見的。
2.當y是定量數據時,線性回歸可以用來分析影響關系。
3.如果現在想對某件事情發生的概率進行預估,比如一件衣服的是否有人想購買? 這里的Y是“是否願意購買”,屬於分類數據,所以不能使用回歸分析。
4.如果Y為定類數據,研究影響關系,選擇logistics回歸分析。
啞變量
1.啞變量(dummy var iable) 也稱虛擬變量。
2.用數字代碼表示的定性自變量。
3.啞變量可有不同的水平:
(1).只有兩個水平的啞變量——性別 男、女
(2).有兩個以上水平的啞變量——貸款企業的類型(家電,醫葯,其他) 啞變量的取值為0,1
4.當定性變量只有兩個水平時,可在回歸中引入一個啞變量,比如性別,一般而言,如果定性自變量有k個水平,需要在回歸中模型中引進k-1個啞變量。
logistic回歸分析
1.logistic回歸分析也用於研究影響關系,即x對於Y的影響情況。Y為定類數據,X可以是定量數據或定類數據。
2.logistic回歸和線性回歸最大的區別在於,Y的數據類型。線性回歸分析的因變量Y屬於定量數據,而logistic回歸分析的因變量Y 屬於分類數據
log it(p) = α + β₁X₁ +…+βmXm
.因變量logit(p)跟概率值p的關系
1.若概率大於0.5%,且小於或等於1,則因變量對應的是分類值1,則因變量對應的是分類值1,即"是"和"發生"。
2.若概率小於0.5%,且大於或等於0,則因變量對應的是分類值0,即“非”和“未發生”
logistic分類
1.二元logistic回歸分析
·如果Y值僅兩個選項,分別是有和無之類的分類數據,選擇二元logistic回歸分析。
2.多元logistic回歸分析
·Y值的選型有多個,並且選項之間沒有大小對比關系,則可以使用多遠logistic回歸分析。
3.多元有序logistics回歸分析
·Y值的選項有多個,並且選項之間可以對比大小關系,選項具有對比意義,應該使用多元有序logistic回歸分析。
Logistic回歸分析類型 因變量Y值選項舉例 說明
二元logistic回歸分析 有和無,願意和不願意 分析數據,並且僅為兩類
多元無序logistic回歸分析 一線城市,二線城市和三線城市 分類數據,並且超過兩類,類別之間沒有對比意義
多元有序logistic回歸分析 不願意,無所謂,意願 分類數據,並且超過兩類,類別之間具有對比意義
logistic回歸的使用場景
1.logistic回歸分析可用於估計某個事件發生的可能性,也可分析某個問題的影響因素有哪些。
· 醫學研究中,logistic回歸常用於對某種疾病的危險因素分析,像是分析年齡、吸煙、飲酒、飲食情況等是否屬於2型糖尿病的危險因素。
問卷研究中,logistic回歸常被用於分析非量表題上,像是將樣本基本背景信息作為x,購買意願作為Y,分析性別、年齡、家庭條件是否會影響購買意願。
2.其中,二元logistic回歸分析的使用頻率最高
logistic回歸案例
模型系數:
顯著性: 新的3個變量模擬程度和不含變量的模型結果具有顯著性
模型概要:
-2對數擬然(誤差平方和): 值越少,模型效果越好
R判斷模型的好壞,需要經驗對比,再多個logistic回歸模型下,判斷擬合程度
分類表(交叉表)
續約為13,不續約為6,對應百分比
方程中的變量
R對應回歸系數,其他變量不變的情況下,此變量變動對logit(p)產生的改變量
瓦爾德 校驗統計量的算法,根據同表中的顯著性判斷一個自變量是否應該在模型中
概率估值
logit(p)=2.208+-0.32*注冊時長+-0.29*營業收入+—0.47*成本
時間序列
1.時間序列分析(Time-Series Analysis)
2.是將某種現象某一個統計指標在不同時間上的各種數值,按時間先后順序排列而形成的序列
3.時間序列法是一種定量預測方法,亦稱簡單外延方法,在統計學中作為一種常用的預測手段被廣泛應用。
時間序列分解因素
長期趨勢變化:1.受某種疾病因素的影響,數據依時間變化是表現為一種確定傾向,它按某種規則穩步地增長和下降
2.使用的分析方法有:移動平均法、指數平滑法、模型擬合法等。
季節性周期變化:1.受季節更替因素影響,序列依一固定周期規則性的變化,又稱商業循環。
2.采用的方法:季節指數。
循環變化:周期不固定的波動變化
隨機性變化:由許多不確定因素引起的序列變化
時間序列分解因素的原因
1.把因素從時間序列中分解出來后,就能克服其他因素的影響,僅考量某一種因素對時間序列的影響
2.分解這四種因素后,也可以分析他們之間的相互作用,以及它們對時間序列 的綜合影響
3.當去掉某些因素后,就可以更好地進行時間序列之間的比較,從而更加客觀地反映事物變化發展規律
4.分解這些因素后的序列可以用於建立回歸模型,從而提高預測精度。
時間序列分析
分類 分析方法
確定性變化分析 趨勢變化分析、周期變化分析、循環變化分析
隨機性變化分析 有AR、MA、ARMA模型
時間序列分析特征
1.時間序列分析法是根據過去的變化趨勢預測未來的發展,它的前提是假定事物的過去延續到未來。
·時間序列分析,正是根據客觀事物發展的連續規律性,運用過來的歷史數據,通過統計分析,進一步推測未來的發展趨勢,事物的過去會延續到未來這個假設前提包含兩層含義:一是不會發生突然的跳躍變化,是以相對小的步伐前進,二是過去和當前的現象可能表明當前和將來活動的發展變化趨向。這就決定了在一一般情況下,時間序列分析法對於短、近期預測比較顯著,但如眼神到更遠的將來,就會出現很大的局限性,導致預測值偏離實際較大而使決策失誤。
時間序列分析
1.時間序列數據變動存在着規律性與不規律性
·時間序列中的每個觀察值大小,是影響變化的各種不同因素在同一時刻發生作用的綜合結果。從這些影響因素發生作用的大小和方向變化的時間特性來看,這些因素造成的時間序列數據的變動分為四種類型。
·(1)趨勢性:某個變量隨着時間進展或自變量變化,呈現一種比較緩慢而長期的持續上升、下降、停留的同性質變動趨向,但變動幅度可能不相等。
·(2)間期性:某因素由於外部影響隨着自然季節的交替出現高峰與低谷的規律。
·(3)隨機性:個別為隨機變動,整體呈統計規律。
·(4)綜合性:實際變化情況是幾種變動的疊加或組合。預測時設法過濾除去不規則變動,突出反映趨勢性和周期性變動。
時間序列分析模型
1.加法模型:四個因素相互獨立,即4個因素可以直接疊加而形成
· Y=T+S+C+I
·(Y,T計量單位相同的總量指標)(S,C,I對長期趨勢產生的或正或負的偏差)
2.乘法模型:四個因素相互影響,即綜合4個因素而形成的(常用模型)
Y=T*S*C*I(Y,T計量單位相同的總量指標)(S,C,I對原數列指標增加或減少的百分比)
時間序列指標數值編制原則
1.保證序列中各期指標數值的可比性
·時期長短最好一致
·總體范圍應該一致
·指標的經濟內容應該統一
·計算方法應該統一
·計算價格和計量單位可比
時間序列預測
1.時間序列預測主要是以連續性原理作為依據的。連續性原理是指客觀事物的發展具有合乎規律的連續性,事物發展是按照它本身固有的規律進行的。在一定條件下,只要規律賴以發生作用的條件不產生質的變化,則事物的基本發展趨勢在未來就還會持續下去。
2.時間序列預測就是利用統計技術與方法,從預測指標的時間序列中找出演變模式,建立數學模型,對預測指標的未來發展趨勢做出定量估計。
季節分解法
·因為時間序列中的長期趨勢反映了事物發展規律,是我們重點研究的對象;而循環變動由於其周期較長,也可以近似看作是長期趨勢的反映;不規則變動由於不容易測量,通常也不單獨分析;
·但是季節變動的存在有時會讓預測模型誤判其為不規則變動,從而降低模型的預測精度。所以,當一個時間序列具有季度變動時,在預測之前會先將它的季節因素進行分解。
·季節性分解(分析-預測-季節性分解)
·“季節性分解” 過程可將一個序列分解成一個季節性成分、一個組合趨勢和循環的成分和一個“誤差”成分。
季節分解法示例
·科學家想要對特定氣象站的臭氧層每月測量結果進行分析。目標是確定數據中是否存在任何趨勢。為了揭示真實趨勢,由於季節性影響,科學家首先需要考慮所讀取資料中的變異。可使用“季節性分解”過程來刪除任何系統性的季節性變化。然后對季節性調整序列執行趨勢分析。
·統計量:一組季節性因子
·數據:變量應為數值型。
·假設:變量不應包含任何內嵌的缺失數據,至少必須定義一個周期性日期成分。
季節分解法-時序圖作用
·了解數據的發展趨勢
·根據時序圖判斷時間序列屬於加法模型還是乘法模型
·判斷發展趨勢:
·如果隨着時間的退役,序列的季節波動變d越來越大,則建議使用乘法模型
·如果序列的季節波動嫩夠基本維持恆定,則建議使用加法模型
季節分解法
·誤差序列(變量前綴“ERR”),這些值是從時間序列中移除季節變動、長期趨勢和循環變動因素之后留下的序列
·季節因素校正后序列(變量前綴是“CAS”) 這是移動原始序列中季節因素 之后的校正序列。
·季節因素(變量前綴是"SAF"),這是從序列中分解出的季節因素,其中的 變量值根據季節周期的變動進行重復,並且與圖8-9的spss輸出窗口中的季節因子數值一樣。本例中,季節周期為12個月,所以,這些季節因子每12個月重復一次。
·長期趨勢和循環變動序列(變量前綴是"STC"),這是原始序列中的長期趨勢和循環變動因素構成的序列。

季節分解法
·銷售額、誤差序列,季節因素校正后序列,長期趨勢和循環變動序列序列圖

·季節性因子序列圖
時間序列建模
·1.繪制間序列圖觀察趨勢
·2.分析序列平穩性進行平穩化
·3.時間序列建模分析
·4.模型評信與預測
時間序列
·"平穩性"指時間序列的所有統計性質都不會隨着時間的推移而發生變化。對於一個平穩的時間序列來說
·需要具有以下特征:
·均數和方差不限時間變化;
·自相關系數只與時間間隔有關,與所處的時間無關,"自相關系數",研究的是一個序列中不同的時期的相關系數,也就是對時間序列計算其當前期和不同滯后期的一系列相關系的。
·時間序列的平穩化目的
·因為目前主流的時間序列預測方法都是針對平穩的時間序列進行分析的,但是實際上,我們遇到的大多數時間序列都不平穩。所以在分析時,首先需要識別序列的平穩性,並且把不平穩的序列轉換為平穩序列,一個時間序列值有被平穩化處理通過才能被控制和預測
創建傳統模型



創建傳統模型結果解析
最優時間序列模型為ARIMA(0,0,0)(0,0,0)最優時間序列及其參數,該模型可解讀為∶對移除季節因素的序列和包含季節因素的序列分別進行0階差分和0次移動平均,綜合兩個模型而構建出的時間序列模型。
ARIMA:求和自回歸移動平均模型。ARIMA(p,d,q)(P,D,Q)
(p,d,q)是針對移除季節性變化后的序列。
pp,是指移除季節性變化后的序列所滯后的p期,通常取值為0或1,大於1的情況較少;
d,是指移除季節性變化后的序列進行了d階差分,通常取值為0、1或2;
q,是指移除季節性變化后的序列進行了q次移動平均,通常取值為0或1,很少會超過2。
(P,D,Q)是描述季節性變化。大寫的P,D,Q的含義相同,只是應用在包含季節性變化的序列上。

創建傳統模型結果解析

平穩R方:平穩序來評估模型擬合優度,它是將模型平穩部分與簡單均值模型相比較的測量,取正值時表示模型優於簡單均值模型,取負值時則相反。當時間序列含有趨勢或季節因素時,平穩統計量要優於普通統計量。由於原始序列具有季節變動因素,所以,平穩更具參考意義。平穩R方大於0,模型效果還不錯。
創建傳統模型結果解析
模型統計:該結果提供了更多的統計量用以評估時間序列模型的數據擬合效果。
平穩值大於0,"楊-博克斯Q(18)"統計量的顯著性(P值)=0.137,大於0.05【此處的顯著性(P值)>0.05是期望得到的結果】,則接受原假設,認為這個序列的殘差符合隨機序列分布,同時也沒有離群值的出現,這些也都反映出數據的擬合效果還是可以接受的
預測趨勢圖顯示了實際值和預測值的趨勢,藍色的序列是原始值,如果在之前的【時間序列建模器】中設置了要預測的時間,則該圖會顯示出預測值。本例中,由於沒有設置要預測的時間,故不會出現未來的預測值。

時間序列預測的應用




RFM
RFM分析
·RFM模型是衡量客戶價值和客戶創利能力的重要工具和手段。
·最近一次消費(Recency)
`消費頻率(Frequency)
·消費金額(Monetary)
最近一次消費
最近一次消費意指上一次購買的時候——顧客上一次是幾時來店里、上一次根據哪本郵購目錄購買東西、什么時候買的車,或在你的超市買早餐最近的一次是什么時候。
理論上,上一次消費時間越近的顧客應該是比較好的顧客,對提供即時的商品或是服務也最有可能會有反應。營銷人員若想業績有所成長,只能靠偷取競爭對手的市場占有率,而如果要密切地注意消費者的購買行為,那么最近的一次消費就是營銷人員第一個要利用的工具。
最近一次消費的功能不僅在於提供的促銷信息而已,營銷人員的最近一次消費報告可以監督事業的健全度。月報告如果顯示上一次購買很近的客戶,(最近一次消費為1個月)人數如增加,則表示該公司是個穩健成長的公司;反之,如上一次消費為一個月的客戶越來越少,則是該公司邁向不健全之路的征兆。
最近一次消費報告是維系顧客的一個重要指標。最近才買你的商品、服務或是光顧你商店的消費者,是最有可能再向你購買東西的顧客。再則,要吸引一個幾個月前才上門的顧客購買,比吸引一個一年多以前來過的顧客要容易得多。
消費頻率 :
消費頻率是顧客在限定的期間內所購買的次數。我們可以說最常購買的顧客,也是滿意度最高的顧客。如果相信品牌及商店忠誠度的話,最常購買的消費者,忠誠度也就最高。增加顧客購買的次數意味着從競爭對手處偷取市場占有率,由別人的手中賺取營業額。
根據這個指標,我們又把客戶分成五等分,這個五等分分析相當於是一個“忠誠度的階梯”(loyalty ladder),其訣竅在於讓消費者一直順着階梯往上爬,把銷售想像成是要將兩次購買的顧客往上推成三次購買的顧客,把一次購買者變成兩次的。
消費金額:
消費金額是所有數據庫報告的支柱,也可以驗證“帕雷托法則”(Pareto’s Law)
某超市一周顧客
人均消費水平 |
人數 |
400 |
103 |
140 |
298 |
30 |
587 |
如果你的預算不多,而且只能提供服務信息給部分顧客,你會將信息郵寄給哪些顧客?
RFM分析
R****(最近一次消費 ) |
F****(時間段內購買次數 |
M****(消費金額) |
客戶類型 |
高 |
高 |
高 |
高價值客戶 |
高 |
低 |
高 |
重要發展客戶 |
低 |
高 |
高 |
重要保持客戶 |
低 |
低 |
高 |
重要挽留客戶 |
高 |
高 |
低 |
一般價值客戶 |
低 |
高 |
低 |
一般保持客戶 |
高 |
低 |
低 |
一般發展客戶 |
低 |
低 |
低 |
無價值客戶 |
RFM分析


RFM分析步驟
·計算RFM各項的值
·匯總RFM分值
·根據RFM分值對客戶分類
RFM數據結果

變量產稱 |
變量標簽 |
客戶ID |
客戶標識 |
最近日期 |
最后一次交易日期 |
交易計數 |
交易總次數 |
金額 |
交易總金額 |
嶄新得分 |
RS∶最后一次交易的時間間 |
頻率得分 |
F_S∶交易總次數得分 |
消費金額得分 |
MS∶交易總金額得分 |
RFM 得分 |
RFM得分 |
RFM分箱計數





