摘要
工資總額分配是與企業人力資源戰略緊密聯系的管理要素。企業的工資總額對一個企業的未來發展至關重要,本文以2018年26個省市分公司年運營的統計數據作為研究對象,在合理假設的基礎上,綜合考慮國企對各省市分公司工資分配的影響因素,通過建立合理的模型;對公司工資分配問題進行了分析。
針對問題一,題目給出的附件一可以看出,影響各省份的分公司年運營因素主要有:地區差異、收入與成本規模、收益三大項。可再細分為:地域人口,城鄉人均消費支出,城鎮居民收入,業務總收入等十六小項。也許是因為以上特征,導致各省份分公司所分配的工資總額受到影響,要想挑出主要的影響特征。我們可以分析因變量(計划工資)和每一個自變量的相關性。采用matlab可視化的方法繪制因變量和單一自變量的函數圖像,人為去掉和計划工資相關性微弱的特征因素。初步篩選出較為重要的,作為影響工資分配的主要因素。
針對問題二,根據問題一得到的重要特征,進行相關性檢驗,根據其相關性判斷特征之間是否存在多重共線性,采用逐步回歸方法消除多重共線性,並對單一重要特征做回歸分析,根據可決系數確定各重要特征的影響力大小,進行t檢驗,最終確定重要影響特征。
根據總成本和人事成本費用率計算總的人工成本,再乘以一定比例得到各公司的實際工資。根據實際工資和重要特征建立逐步回歸模型,再將2018年各分公司的重要特征數值帶入模型,計算出一個預測值並且得到一個置信區間,根據2018年初的計划工資是否在置信區間的偏差比例判斷計划工資分配是否合理。
問題三,根據問題二得到的回歸模型 更改2018年初的計划工資分配,根據重要特征的影響力大小和重要特征的數值說明更改的合理性。
本文中所使用的算法特色在於采用數據可視化,相關性檢驗,student t檢驗,逐步回歸多方面挖掘數據項之間的關聯信息,經過相關性檢驗后,t檢驗和逐步回歸的復雜度將大大下降,模型復雜度相對較低,可在數據挖掘領域推廣運用。
關鍵詞:工資分配 數據可視化 相關性檢驗 變量的顯著性檢驗 回歸分析
一、問題重述
1.1 背景資料
國企公司對分公司的工資分配機制,是一個公司未來發展極為重要的因素,有助於企業實現戰略目標、改善經營績效、提高市場競爭力和加強企業文化。所以,如何建立一套科學、合理的工資總額分配方案,對國有企業來說是一個全新而重大的課題。
現有某國有企業,總公司擬對26個省市分公司進行工資總額分配,即,該國企2018年計划在26個省市分公司分配工資總計360余億元人民幣(附件2),那么每個省市分公司應該怎樣分配才能保證工資總額分配是合理的?當然,該國企總公司為了在26個省市分公司科學配置工資總額,促進企業經營發展、提高管理水平、提升競爭能力,應該綜合考慮各省市的地區差異、收入與成本規模和收益等因素。
總公司一般在年初制定本年度各省市分公司的工資總額分配方案,年底根據本年度各省市分公司的實際運營情況進行微調,進而制定下一年度的分配方案,例如:2018年初,根據2017年各省市分公司的實際運營情況制定2018年分配方案,並加以執行;2018年底,根據2018年各省市分公司的實際運營情況,判定2018年初制定的工資總額分配是否合理,從而對2018年制定的分配方案進行微調,並據此制定並執行2019年的分配方案。
1.2 問題提出
請根據相關數據,回答以下問題:
問題一:分析26個省市各分公司所分配的工資總額主要受哪些因素影響?
問題二:建立數學模型,評價2018年初制定的省市分公司工資總額分配是否合理。
問題三:建立數學模型, 調整2018年初省市分公司工資總額合理分配方案,並給出調整后的合理性說明。
二、問題分析
該題目意在分析國企對各省分公司分配的工資總額受哪些因素的影響,綜合分析該國企在2018年所下撥的工資總額是否合理,並對該分配合理性做出評價,提出建設性意見,並進行驗證。
第一問中,首先需要對附件一和附件二的內容進行理解,挖掘其中的重要數據,來作為影響分公司工資總額的主要因素。我們想到了對附件一中每一個影響因素和附件二中的計划分配工資的相關性進行分析,利用matlab軟件對其特征進行可視化處理,可以很直觀的看出每一個影響因素的散點圖,分析其相關度,來作為確定重要因素的根據。需要注意一點的是,先做線性回歸的模型考慮到利用相關性判斷特征間也許存在多重共線性,將第一問篩選出來的重要因素進行相關性檢驗,需要消除多重共線性,分析所有特征與計划工資的相關系數,進行t檢驗,最終做進一步的篩選。
第二問,利用逐步回歸來消除多重共線性,剔除有很強相關性的特征,提高准確率。根據重要特征和實際工資利用matlab作多元回歸,得到回歸模型。用類似方法再做一個非線性的模型,通過對比保留更好的模型。通過建立建模進行預測,有五個城市模型預測值相差比例較大,得出結論:計划工資分配不合理。
‘
第三問,利用第二問的方法,計算結果,來更改下一年的工資總額分配,利用其主要影響因素,來綜合分析其調整原因。
三、基本假設
為簡化問題,做出如下合理假設:
(1)各分公司前后兩年的員工人數不變;
(2)2018年各分公司的實際運營狀況與2017年相差不大;
(3)假設各分公司員工得到的實際工資在人工成本中的占比相同,均為58.7%;
(4)各分公司的工資分配只可能受受表格中給出的特征影響,不考慮其他的因素;
(5)附件1中有兩項數據確實,由於缺失量非常少,忽略掉這兩項對整體的影響;
四、符號說明
五、模型建立與求解
5.1 問題一:篩選重要特征
5.1.1 對附件一中的影響因素進行篩選
篩選重要特征,本質上是挖掘自變量與因變量的關系,第一步采用matlab可視化,將單一特征和計划分配工資以散點圖的形式呈現。比如:
此處以地域人口和2018年計划工資分配為例,構成(地域人口,計划工資分配)二元組,地域人口為橫坐標,計划工資分配為縱坐標,一個二元組視為二維平面的一個點,然后會得到一個(地域人口,計划工資分配)的散點圖(見圖5-1),可以看出地域人口和計划工資分配是有一定關系的。 對每一個特征都進行這樣的散點圖可視化,最后人為的篩掉一部分和計划工資關聯較弱的特征,得到初步的重要特征。
圖5-1 計划工資分配隨地域人口數量散點圖
5.1.2 問題一求解
Step1:利用matlab可視化處理,附件一中的影響因素散點圖如下所示(部分):
城鄉居民人均收入(見圖5-2):
城鄉人均消費支出(見圖5-3):
圖5-3 計划工資分配隨城鄉人均消費支出
完整影響因素的散點圖請查看附錄一
·綜上所述,通過分析散點圖,明顯具有相關性的為:
地域人口、城鎮居民數、城鎮居民收入、GDP、業務總收入、業務總成本、生產用固定資產、勞動生產率。
Step2:相關性分析
由於不確定變量之間是否存在多重共線性,則需要對問題一初步篩選出來的特征進行相關性分析(如果特征之間存在很強的相關性,那么模型是可以剔除一部分特征的,否則會影響模型准確率)。
·相關性分析:相關分析是研究兩個或兩個以上處於同等地位的隨機變量間的相關關系的統計分析方法。例如,人的身高和體重之間;空氣中相對濕度與降雨量之間的相關關系都是相關分析研究的問題。[1]
·最終目的:檢驗初步篩選出來的特征之間是否有很強的相關性,以便於后面相應的回歸方法。
Step3:
通過分析所有因素的相關系數,進行進一步的篩選,所有因素的相關系數表請查看(附錄3)。我們對相關系數大於0.8的因素分別對計划工資進行一元回歸,判斷影響力最大的因素。
Eg:地域人口對計划工資的影響:
假設方程:
通過eviews 軟件運行結果如下(表 5-1):
Step4:
如上表所示,其中可決系數(R-squared)為0.706903,說明回歸模型中工資總額總離差中,人口的離差解釋部分占70.69%;
假設H0:β0 = 0 假設H1:β0 ≠ 0根據回歸結果可知β0的t統計量為7.608173,查表(附錄)可知t(0.005)(24) = 3.104<7.60813,說明解釋變量在1%的顯著性水平下,拒絕原假設H0 ,通過顯著性檢驗。
Step5:
由上述方法,得出以下數據:
5.1.3 問題一結論
綜合上述可以得出26個省市各分公司所分配的工資總額主要受到的因素影響為:城鎮居民數、城鎮居民收入、業務總收入、業務總成本、生產用固定資產。
5.2 問題二:建立模型求解
5.2.1 多元線性模型
多重共線性:多重共線性是指線性回歸模型中的解釋變量之間由於存在精確相關關系或高度相關關系而使模型估計失真或難以估計准確。一般來說,由於經濟數據的限制使得模型設計不當,導致設計矩陣中解釋變量間存在普遍的相關關系。完全共線性的情況並不多見,一般出現的是在一定程度上的共線性,即近似共線性。
Step1:
針對於第二小問,我們的目的是得到應分配工資和重要特征之間的多元線性模型,類似於機器學習里面的監督學習。則需要目標變量,這里以2018年各分公司的實際工資作為目標變量。
已知人事成本費用率(β),通過查詢資料得知總成本中包含了員工工資;
人事成本費用率=人工成本總額/總收入*100% (5.2)
人工成本總額包括了員工總工資,占比一般為58.7%(根據見附錄3圖9-17,從業人員報酬占從業人員平均人工成本的58.7%) 則:
實際工資=人工成本總額*0.587 (5.3)
·計算得到的實際工資數據為:
如上表格5-3可以看出,對比實際需要工資與分配的工資總額,總體誤差不大,可以驗證我們選取的實際工資計算公式是比較合理的。
Step2:
由上述公式計算出實際工資,對經過了兩次篩選的每一個特征,單獨做一元線性回歸,根據可決系數確定對目標變量影響力最大的特征。
根據可決系數最終確定主要特征,然后用實際工資作為目標值,主要特征作為變量,結合附件1數據
用matlab做多元線性回歸和多元非線性回歸,將兩種方法進行對比,最終得到回歸模型。
·可決系數:亦稱測定系數、決定系數、可決指數。與復相關系數類似的,表示一個隨機變量與多個隨機變量關系的數字特征,用來反映回歸模型,來說明因變量變化可靠程度的一個統計指標,一般用符號“R”表示,可定義為已被模式中全部自變量說明的自變量的變差對自變量總變差的比值。[1]
Step3:
最后使用Student t檢驗,將附件1的每一行重要特征帶入回歸模型,以一定的錯誤接受率得到一個置信區間,觀察對應的計划工資和其對應的置信區間的偏差值來判斷計划分配工資是否合理。
·t檢驗:亦稱student t檢驗(Student's t test),主要用於樣本含量較小(例如n < 30),總體標准差σ未知的正態分布。t檢驗是用t分布理論來推論差異發生的概率,從而比較兩個平均數的差異是否顯著,t檢驗計算過程經過翻閱資料,證明材料請查看(附錄3 圖9-18)。
5.2.1 模型的建立與求解:
1.建立多元線性模型,設實際工資和主要特征之間的函數為:(使用線性多元回歸)
同時觀察散點圖發現可能存在非線性的影響因素:人均收入、人均消費、成本費用率;
加入影響因素更改方程:
注:將非線性方程轉換成線性方程再進行擬合,經過檢驗,非線性方程擬合要比非
線 性轉化為線性方程擬合誤差更大。還有一個原因是,做非線性回歸的時,我們要
在擬合前設置初始值,而初始值的選擇直接影響后面系數的確定,若改變初始值,擬合出來的系數都將發生變化,這樣也會增加非線性回歸產生的誤差,前面說的誤差是計
算上產生的誤差,而這里是人為經驗上產生的誤差。因此在做非線性回歸時,可嘗
試轉換為線性回歸來完成。
2.令:
·非線性函數轉換為線性函數:
檢驗解釋變量間的相關系數如下圖:
圖5-4 解釋變量間的相關系數圖
由圖可知,有幾個解釋變量間的相關系數大於0.94,甚至達到了0.99,可由此表明存在多重共線性。
4.看作線性,進行逐步回歸,需要考慮多重共線性:
在逐步回歸的過程中,再考慮非線性(由於將非線性因素變換為了線性因素,所以計算方法與線性模型相同)的情況下,模型綜合來看擬合程度最好的是:
綜上所述,可得最主要的特征為TCOST、PRODUCTIONASSETS,COST;
5.轉換成非線性回歸模型應為:
總結:
線性模型對數據的擬合程度達到98%,非線性模型對數據的擬合程度達到99%;
但是線性模型能夠通過99%的t檢驗,但是非線性模型只能通過85%的t檢驗;
對比線性與非線性模型,在擬合程度相差很小的情況下,線性模型更可信,選取線性模型做預測分析。
6.置信區間(此處開始t檢驗部分)
(過程方法詳見附錄3 圖9-19)
Step1:
令1,TCOST,PRODUCTIONASSETS,組成的矩陣為X
X0 = [1 505348 18.6240186215331]
在99.9%的信度下,臨界值t(0.005)(23) = 3.768
根據回歸結果
σ= 7811.860
計算可得工資的置信區間如表5-5:
Step2:由上表格數據做出示意圖:
圖5-5 線性模型預測值,置信區間的最大值,最小值,計划工資變化圖注:
1-26按照附件1給出的省份順序依次表示北京,天津,河北,山西……
·總結:根據曲線圖比較可知計划工資分配和模型預測值偏差較大的省份有:江蘇(9),浙江(10),山東(13),湖南(16),四川(20),且相差比例較大,故計划工資分配不合理。
5.2.2 問題二過程
1.根據相關性分析確定主要特征之間是否存在多重共線性;
2.計算實際工資;
3.根據實際工資,對每個特征作一元線性回歸,計算可決系數,根據可決系數篩選最重要的幾個特征;
4.根據重要特征和實際工資利用matlab作多元回歸,得到回歸模型;
5.根據回歸模型的置信區間判定計划工資分配是否合理。
5.3 問題三:
根據問題二得到的模型計算結果,更改計划工資分配。因為與預測工資主要受業務總成本,生產用固定資產,人均消費影響,主要從這三方面分析計划工資調整原因:
·江蘇計划工資應至少減少68467萬元,占計划工資19.6%;
由於計划工資下調較大,三個主要因素影響最大的是業務總成本(TCOST) ,可能是由於業務總成本下降過多導致實際工資的下滑
·浙江計划工資至少減少79108萬元,占計划工資28%
計划工資下調幅度過大,可能是業務總成本和生產用固定資產均出現大幅度下滑
·山東計划工資應至少減少33494萬元 占計划工資13.7%
下調比例不大,可能是生產用固定資產出現一定幅度的下降
·湖南計划工資應至少減少80178萬元,占計划工資20.8%
下降幅度過大,可能是業務總成本下降過多引起的
·四川計划工資應至少減少 56858萬元,占比26%
下調幅度過大,可能是業務總成本和成產用固定資產下降過多