數據分析筆試(2)


1、KMO值在( )范圍內,因子分析才是有效的。
解答:kmo檢驗統計量是用於比較變量間簡單相關系數和偏相關系數的指標,主要用於多元統計的因子分析。當所有變量的簡單相關系數的平方和遠遠大於偏相關系數的平方和時,kmo值越接近於1,原有變量越適合做因子分析。0.7-0.8適合,0.8-0.9很適合,0.9-1非常適合。0.6-0.7不太適合,0.5-0.6勉強適合,小於0.5不適合。BartlettP值小於或者等於0.01適合。

2、數據分析的方法包含( )、( )、( )等。
解答:描述性統計,回歸分析。方差分析,假設檢驗。

選擇題。較為簡單

簡答題。
1、某網站7月份共訪問用戶數4100人,已知訪問網站有兩種登陸方式A 和B 。使用A登陸的7月份總用戶數為2835,使用B方式登陸的7月份總用戶數為1400,既使用過A又使用過B登陸的7月份總用戶數為985.
問:可以看出,總訪問數—使用A登陸方式的總用戶數=1265,那么A與B的重復用戶數=B登陸用戶數—1265=135,而實際得到的既使用A登陸方式又使用B登錄方式的7月份總用戶數為985,顯然這是矛盾的,問題出在哪里?給出計算方法。

2、新浪公司樓下有一便利店,35平米,收銀員2位,每天提供早餐、中餐、晚餐。如果你來做估算,計算每天的營業額是多少?

3、抽樣估計的優良標准。
解答:無偏性,一致性,有效性。

4、寫出相關和回歸分析的內容。
解答:相關分析是對兩個變量之間線性關系的描述和度量。
回歸分析側重於考察變量之間的數量伴隨關系。

5、一道關於產品成本降低率和銷售利潤的直線回歸分析的題目,記不清了。

2012新浪校園招聘數據分析師職位筆試題目。A卷(數據挖掘方向)
1、輸入兩個整數n 和m ,從數列1、2、3....n中隨意取幾個數,使其等於m,將其所有可能的組合列出來,如果考慮遞歸算法,請將算法的思路或者偽碼寫出來即可,求解思路:
2、有100個人做5道題目,第一道題目做的人有55人,第二道做對的人有89人,第三道作對的人有97人,第四道作對的人有79人,第五道作對的人有46人,已知至少作對三道才是過關,問至少多少人過關?(提供的數字我已經記不清了就隨便寫的幾個)
3、證明根號2是無理數。
4、聚類分析方法對變量之間多重共線性的影響。
5、新浪公司樓下有一便利店,35平米,收銀員2位,每天提供早餐、中餐、晚餐。如果你來做估算,計算每天的營業額是多少?

1.平均數,中位數,眾樹,方差,標准差的含義,並舉例子解釋。
2.你心目中的數據分析師是什么樣的?
3.兩個水桶,一個小點的桶可以裝4升水,大的桶裝11升水,問怎么操作可以兩個桶盛5升水?
4.數據分布有哪些?選擇熟悉的數據分布並寫出其適用的場景。
5.寫出三種熟悉的排序算法,選擇一個寫出其偽代碼。
6.Hadoop生態系統組件有哪些?寫出你熟悉的三個。
7.什么是幸存者偏差?
8.寫出10種linux命令,寫出其參數。
9.用一種編程語言,實現1+2+3+4+5+.....+100
10.實現求1,2,3,...100之間的質數。
11.給幾個表,mysql語言編寫。(時間來不及,就沒有寫,挺復雜的)
12.給了三個圖表,全是英文的,對其做分析。

最小化誤差是為了讓我們的模型擬合我們的訓練數據,而規則化參數是防止我們的模型過分擬合我們的訓練數據,提高泛化能力。

#1.朴素貝葉斯 1)基礎思想:對於給出的待分類項,求解在此項出現的條件下各個類別出現的概率,哪個最大,就認為此分類項屬於哪個類別。
2)優點: 可以和決策樹、神經網絡分類算法相媲美,能運用於大型數據庫中。 方法簡單,分類准確率高,速度快,所需估計的參數少,對於缺失數據不敏感。
3)缺點: 假設一個屬性對定類的影響獨立於其他的屬性值,這往往並不成立。(喜歡吃番茄、雞蛋,卻不喜歡吃番茄炒蛋)。 需要知道先驗概率。
 
#2.決策樹 1)基礎思想:決策樹是一種簡單但廣泛使用的分類器,它通過訓練數據構建決策樹,對未知的數據進行分類。
決策樹的每個內部節點表示在一個屬性上的測試,每個分枝代表該測試的一個輸出,而每個葉結點存放着一個類標號。在決策樹算法中,ID3基於**信息增益**作為屬性選擇的度量,C4.5基於**信息增益比**作為屬性選擇的度量,CART基於**基尼指數**作為屬性選擇的度量。
2)優點 : 不需要任何領域知識或參數假設。 適合高維數據。 簡單易於理解。 短時間內處理大量數據,得到可行且效果較好的結果。
3)缺點: 對於各類別樣本數量不一致數據,信息增益偏向於那些具有更多數值的特征。 易於過擬合。 忽略屬性之間的相關性。

#3.支持向量機 1)基礎思想:支持向量機把分類問題轉化為尋找分類平面的問題,並通過最大化分類邊界點距離分類平面的距離來實現分類。
2)優點 : 可以解決小樣本下機器學習的問題。 提高泛化性能。 可以解決**文本分類、文字識別、圖像分類**等方面仍受歡迎。 避免神經網絡結構選擇和局部極小的問題。
3)缺點: 缺失數據敏感。 內存消耗大,難以解釋。
 
#4.K近鄰 1)基礎思想:通過計算每個訓練樣例到待分類樣品的距離,取和待分類樣品距離最近的K個訓練樣例,K個樣品中哪個類別的訓練樣例占多數,則待分類樣品就屬於哪個類別。
2)優點 : 適用於樣本容量比較大的分類問題
3)缺點: 計算量太大 對於樣本量較小的分類問題,會產生誤分。
 
#5.邏輯回歸(LR) 1)基礎思想:回歸模型中,y是一個定型變量,比如y=0或1,logistic方法主要應用於研究某些事件發生的概率。
2)優點 : 速度快,**適合二分類問題。** 簡單易於理解,直接看到各個特征的權重。 能容易地更新模型吸收新的數據。
3)缺點: 對數據和場景的適應能力有局限,不如決策樹算法適應性那么強

1)准確率(precision rate):TP/(TP+FP)
2)召回率(recall rate):TP/(TP+FN)

  • 對於不平衡類的分類器評價,使用ROC和AUC作為評價分類器的指標
    3)ROC曲線:
    ROC關注兩個指標

    • True Positive Rate ( TPR,真正率 ) = TP / [ TP + FN] ,TPR與召回率大小相等。
    • False Positive Rate( FPR,假正率 ) = FP / [ FP + TN] ,
      在ROC 空間中,每個點的橫坐標是FPR,縱坐標是TPR

4)AUC值:AUC(Area Under Curve)被定義為ROC曲線下的面積,顯然這個面積的數值不會大於1。又由於ROC曲線一般都處於y=x這條直線的上方,所以AUC的取值范圍在0.5和1之間。使用AUC值作為評價標准是因為很多時候ROC曲線並不能清晰的說明哪個分類器的效果更好,而AUC作為數值可以直觀的評價分類器的好壞,值越大越好。


過擬合表現在訓練數據上的誤差非常小,而在測試數據上誤差反而增大。其原因一般是模型過於復雜,過分得去擬合數據的噪聲和outliers。
常見的解決辦法是正則化是:增大數據集,正則化
正則化方法是指在進行目標函數或代價函數優化時, 在目標函數或代價函數后面加上一個正則項,一般有L1正則與L2正則等。規則化項的引入,在訓練(最小化cost)的過程中,當某一維的特征所對應的權重過大時,而此時模型的預測和真實數據之間距離很小,通過規則化項就可以使整體的cost取較大的值,從而在訓練的過程中避免了去選擇那些某一維(或幾維)特征的權重過大的情況,即過分依賴某一維(或幾維)的特征。
L1正則與L2正則區別:
L1:計算絕對值之和, 用以產生稀疏性(使參數矩陣中大部分元素變為0),因為它是L0范式的一個最優凸近似,容易優化求解;
L2:計算平方和再開根號,L2范數 更多是防止過擬合,並且讓優化求解變得穩定很快速;
所以優先使用L2 norm是比較好的選擇。

3)快速排序 快速排序是對冒泡排序的一種改進。 快速排序是不穩定的。最理想情況算法時間復雜度O(nlog2n),最壞O(n ^2)。
基本思想: (1)首先任意選擇一個元素作為初始元素key(一般取第一個元素) (2)從兩端開始分別找:從右往左,尋找比key值小的元素交換位置;再從左往右,尋找比key值大的元素交換位置; (3)如此依次循環步驟1.2 4)
 
堆排序 堆排序是一種樹形選擇排序。
堆排序是不穩定的。算法時間復雜度O(nlog n)。 基本思想:分為最大化堆和最小化堆。
作者:是藍先生
鏈接:https://www.jianshu.com/p/a64aa70d0fbc


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM