1、KMO值在( )范圍內,因子分析才是有效的。
解答:kmo檢驗統計量是用於比較變量間簡單相關系數和偏相關系數的指標,主要用於多元統計的因子分析。當所有變量的簡單相關系數的平方和遠遠大於偏相關系數的平方和時,kmo值越接近於1,原有變量越適合做因子分析。0.7-0.8適合,0.8-0.9很適合,0.9-1非常適合。0.6-0.7不太適合,0.5-0.6勉強適合,小於0.5不適合。BartlettP值小於或者等於0.01適合。
2、數據分析的方法包含( )、( )、( )等。
解答:描述性統計,回歸分析。方差分析,假設檢驗。
選擇題。較為簡單
簡答題。
1、某網站7月份共訪問用戶數4100人,已知訪問網站有兩種登陸方式A 和B 。使用A登陸的7月份總用戶數為2835,使用B方式登陸的7月份總用戶數為1400,既使用過A又使用過B登陸的7月份總用戶數為985.
問:可以看出,總訪問數—使用A登陸方式的總用戶數=1265,那么A與B的重復用戶數=B登陸用戶數—1265=135,而實際得到的既使用A登陸方式又使用B登錄方式的7月份總用戶數為985,顯然這是矛盾的,問題出在哪里?給出計算方法。
2、新浪公司樓下有一便利店,35平米,收銀員2位,每天提供早餐、中餐、晚餐。如果你來做估算,計算每天的營業額是多少?
3、抽樣估計的優良標准。
解答:無偏性,一致性,有效性。
4、寫出相關和回歸分析的內容。
解答:相關分析是對兩個變量之間線性關系的描述和度量。
回歸分析側重於考察變量之間的數量伴隨關系。
5、一道關於產品成本降低率和銷售利潤的直線回歸分析的題目,記不清了。
2012新浪校園招聘數據分析師職位筆試題目。A卷(數據挖掘方向)
1、輸入兩個整數n 和m ,從數列1、2、3....n中隨意取幾個數,使其等於m,將其所有可能的組合列出來,如果考慮遞歸算法,請將算法的思路或者偽碼寫出來即可,求解思路:
2、有100個人做5道題目,第一道題目做的人有55人,第二道做對的人有89人,第三道作對的人有97人,第四道作對的人有79人,第五道作對的人有46人,已知至少作對三道才是過關,問至少多少人過關?(提供的數字我已經記不清了就隨便寫的幾個)
3、證明根號2是無理數。
4、聚類分析方法對變量之間多重共線性的影響。
5、新浪公司樓下有一便利店,35平米,收銀員2位,每天提供早餐、中餐、晚餐。如果你來做估算,計算每天的營業額是多少?
1.平均數,中位數,眾樹,方差,標准差的含義,並舉例子解釋。
2.你心目中的數據分析師是什么樣的?
3.兩個水桶,一個小點的桶可以裝4升水,大的桶裝11升水,問怎么操作可以兩個桶盛5升水?
4.數據分布有哪些?選擇熟悉的數據分布並寫出其適用的場景。
5.寫出三種熟悉的排序算法,選擇一個寫出其偽代碼。
6.Hadoop生態系統組件有哪些?寫出你熟悉的三個。
7.什么是幸存者偏差?
8.寫出10種linux命令,寫出其參數。
9.用一種編程語言,實現1+2+3+4+5+.....+100
10.實現求1,2,3,...100之間的質數。
11.給幾個表,mysql語言編寫。(時間來不及,就沒有寫,挺復雜的)
12.給了三個圖表,全是英文的,對其做分析。
最小化誤差是為了讓我們的模型擬合我們的訓練數據,而規則化參數是防止我們的模型過分擬合我們的訓練數據,提高泛化能力。

1)准確率(precision rate):TP/(TP+FP)
2)召回率(recall rate):TP/(TP+FN)
-
對於不平衡類的分類器評價,使用ROC和AUC作為評價分類器的指標
3)ROC曲線:
ROC關注兩個指標- True Positive Rate ( TPR,真正率 ) = TP / [ TP + FN] ,TPR與召回率大小相等。
- False Positive Rate( FPR,假正率 ) = FP / [ FP + TN] ,
在ROC 空間中,每個點的橫坐標是FPR,縱坐標是TPR
4)AUC值:AUC(Area Under Curve)被定義為ROC曲線下的面積,顯然這個面積的數值不會大於1。又由於ROC曲線一般都處於y=x這條直線的上方,所以AUC的取值范圍在0.5和1之間。使用AUC值作為評價標准是因為很多時候ROC曲線並不能清晰的說明哪個分類器的效果更好,而AUC作為數值可以直觀的評價分類器的好壞,值越大越好。
過擬合表現在訓練數據上的誤差非常小,而在測試數據上誤差反而增大。其原因一般是模型過於復雜,過分得去擬合數據的噪聲和outliers。
常見的解決辦法是正則化是:增大數據集,正則化
L1正則與L2正則區別:
L1:計算絕對值之和, 用以產生稀疏性(使參數矩陣中大部分元素變為0),因為它是L0范式的一個最優凸近似,容易優化求解;
L2:計算平方和再開根號,L2范數 更多是防止過擬合,並且讓優化求解變得穩定很快速;
所以優先使用L2 norm是比較好的選擇。


鏈接:https://www.jianshu.com/p/a64aa70d0fbc