1 |大數據分析決策平台(南陽市IT大賽二等獎作品) 2 Ø開發時間:2017/10 – 2017/12 3 Ø主要算法:SVM算法 + 皮爾森相關系數 + 支持向量機分類算法 + 迭代學習 4 Ø項目描述:該系統借助學生的校園生活大數據,分析學生是否在校、成績是否合格、心理是否孤單、在經濟上是否需要資助。模塊主要划分為:位置判斷、成績預測、心理分析、獎學金預測。采用SVM算法,利用皮爾森相關系數進行相關性大小判斷,使用支持向量機分類算法構建模型,訓練數據,利用迭代學習方法來簡化支持向量機的決策函數,求出最優的分割線的解,使用模型進行預測。
數據集:
數據數據分為兩組,分別是訓練集和測試集,每一組都包含大約1萬名學生的信息紀錄:
圖書借閱數據borrow_train.txt和borrow_test.txt、
一卡通數據card_train.txt和card_test.txt、
寢室門禁數據dorm_train.txt和dorm_test.txt、
圖書館門禁數據library_train.txt和library_test.txt、
學生成績數據score_train.txt和score_test.txt
助學金獲獎數據subsidy_train.txt和subsidy_test.txt
訓練集和測試集中的學生id無交集,詳細信息如下。
注:數據中所有的記錄均為“原始數據記錄”直接經過脫敏而來,會存在一些重復的或者是異常的記錄,我們通過去重,排序,篩選等方法對數據進行。
4.2 數據分析:
功能一:判斷學生是否在校。
通過寢室門禁和圖書館門禁之間的聯系判斷出學生是否在校。即通過查看某天某個學生的id,顯示出這一天內該學生進出宿舍的具體情況,查找出10點前后(規定寢室10點30鎖門)刷卡的狀態是進還是出,若是進,則表示該學生在宿舍,若是出,通過輔助數據圖書館門禁,查看學生id在10點前后的圖書館門禁顯示為出的時候,則表示學生在校,其他情況均不在學校。
功能二:判斷是否需要對學生進行學習方面的幫助。
首先判斷數據中對學生成績的影響的因素,從圖書館進出次數和在宿舍時間長短兩個方面分析對成績的影響,有如下兩方面:
1、處理圖書館門禁數據,剔除異常信息的數據,然后對數據ID分組求和,可視化分析出圖書館進出次數的折線圖。關聯成績數據,看去圖書館次數多的學生的成績是否優秀。
2、處理宿舍門禁時間,通過具體的時間段內學生進出寢室的間隔計算出該學生待在宿舍的總時間,即time=進寢室的時間-出寢室的時間。把學生待在宿舍總的時間長短進行分類,把總時間均划分為五個區間,每個區間十分制,找出待在宿舍時間最長的那個區間,即為在學習方面需要幫助的學生。
功能三:判斷學生是否心理孤獨。
根據一卡通消費記錄,查找同一消費款項下任意兩人至多人相近消費時間點內打卡記錄次數,次數越多越不孤獨。
功能四:對獲取助學金的預測。
首先對學生成績的數據做成績降序排列,找出學生成績排名前30的學生。然后在對一卡通數據進行升序排列,找出消費最少的30個學生。然后查找這30名中id值相同的學生,在把相同的學生按照成績降序排列,從而得到獲取助學金學學生的名額。
