面試地點:網易游戲-廣州
周日晚上看到有網易游戲的招聘啟事,就投了一個簡歷過去。隔天看一下郵箱,發現周三有個筆試。然后這兩天一直在學習數據挖掘(盡管不知道考什么)后來筆試的時候才發現!我復習的東西還是有點用處的~不至於全都不會考試題型為 單選,多選,sql,分析,挖掘,倉庫,平台,NLP,爬蟲。考察的算法不是很多,對游戲,用戶的思考比較多。
現在做記錄。
單選題
1.哪些是基於規則的分類器?
KNN?Bayes?ANN?C4.5?
2.K均值與DBSCAN比較?
我根本不知道什么是DBSCAN好嗎!
3.數據粒度的性質
這個也不認識!
4.召回率 准確率
5.多元線性回歸:某一x對其他x判定系數接近1 表明什么?
6.LR中的R2是什么?
7.X={1,2,3}可產生___個關聯規則?
8,.有關數據倉庫的開發特點
9.logistic可以做SVM的核函數嗎?
10.什么辦法可以減少過擬合
多選題
1.數據清理中處理缺失值的辦法?
2.數據倉庫的特點?
3.評價分類模型的尺度?
4.影響K均值的主要因素?(與樣本數有沒有關?
5.PCA的原理是?
小波分析怎么降維?
線性判別法?
線性判別法?
LASSO可以減少參數?
SQL
urs | login_time | hostnum | IP | ||
1 | ADmin | 2018-01-01 22:13:02 | 1 | 123.213.45.67 | |
2 | |||||
3 | |||||
4 | |||||
5 |
1)查詢每天服務器的登陸次數和登陸人數
2)查詢2018-01-01的登陸人數,且第三天還留着的。
分析題
如何划分用戶群體?
哪些是核心群體?為什么?
第三問忘了
挖掘
忘了
倉庫
考察數據倉庫和數據粒度的基本概念
數據倉庫分為哪些層?
等等
平台
用什么核心指標刻畫用戶特征與屬性?
給出1000個異常用戶的IP,如何在用戶日志中(100G)用單機(2G內存)快速定位異常用戶並計算特征?
NLP
論壇里面玩家會表達情緒和游戲訴求,那么文本挖掘分為幾個模塊?
爬蟲
1)忘了
2)反爬蟲的機制?