機器學習期末考試
得分:100分(歡迎討論評論)
1.單選(2分)
一監獄人臉識別准入系統用來識別待進入人員的身份,此系統一共包括識別4種不同的人員:獄警,小偷,送餐員,其他。下面哪種學習方法最適合此種應用需求:
A.K-means聚類問題
B.回歸問題
C.二分類問題
√ D.多分類問題
2.單選(2分)
以下哪種技術對於減少數據集的維度會更好?
√ A.刪除缺少值太多的列
B.刪除數據差異較大的列
C.刪除不同數據趨勢的列
D.都不是
3.單選(2分)
將原始數據進行集成、變換、維度規約、數值規約是在以下哪個步驟的任務?
A.頻繁模式挖掘
B.分類和預測
√ C.數據預處理
D.數據流挖掘
4.單選(2分)
下列不是SVM核函數的是( )
A.多項式核函數
√ B.邏輯核函數
C.徑向基核函數
D.線性核函數
5.單選(2分)
數據科學家可能會同時使用多個算法(模型)進行預測, 並且最后把這些算法的結果集成起來進行最后的預測(集成學習),以下對集成學習說法正確的是
A.單個模型之間有高相關性
√ B.單個模型之間有低相關性
C.在集成學習中使用“平均權重”而不是“投票”會比較好
D. 單個模型都是用的一個算法
6.單選(2分)
在以下不同的場景中,使用的分析方法不正確的有
A.根據商家最近一年的經營及服務數據,用聚類算法判斷出天貓商家在各自主營類目下所屬的商家層級
√ B.根據商家近幾年的成交數據,用聚類算法擬合出用戶未來一個月可能的消費金額公式
C.用關聯規則算法分析出購買了汽車坐墊的買家,是否適合推薦汽車腳墊
D.根據用戶最近購買的商品信息,用決策樹算法識別出淘寶買家可能是男還是女
7.單選(2分)
bootstrap 數據的含義是
A.有放回的從整體M中抽樣m個特征
B.無放回的從整體M中抽樣m個特征
√ C.有放回的從整體N中抽樣n個樣本
D.無放回的從整體N中抽樣n個樣本
8.單選(2分)
在邏輯回歸中,如果同時加入L1和L2范數,不會產生什么效果
A.以做特征選擇,並在一定程度上防止過擬合
B.能解決維度災難問題
C.能加快計算速度
√ D.可以獲得更准確的結果
9.單選(2分)
對於在原空間中線性不可分問題,支持向量機()。
A.在原空間中尋找非線性函數的划分數據
B.無法處理
C.在原空間中尋找線性函數划分數據
√ D.將數據映射到核空間中
10.單選(2分)
回歸問題和分類問題的區別是?
A.回歸問題有標簽,分類問題沒有
B.回歸問題輸出值是離散的,分類問題輸出值是連續的
√ C.回歸問題輸出值是連續的,分類問題輸出值是離散的
D.回歸問題與分類問題在輸入屬性值上要求不同
11.單選(2分)
以下關於降維的說法不正確的是?
A.降維是將訓練樣本從高維空間轉換到低維空間
√ B.降維不會對數據產生損傷
C.通過降維可以更有效地發掘有意義的數據結構
D.降維將有助於實現數據可視化
12.單選(2分)
向量x=[1,2,3,4,-9,0]的L1范數是多少?
A.1
√ B.19
C.6
D.sqrt(111)
13.單選(2分)
假設X和Y都服從正態分布,那么P(X<5,Y<0)就是一個( ),表示X<5,Y<0兩個條件同時成立的概率,即兩個事件共同發生的概率。
A.先驗概率
B.后驗概率
√ C.聯合概率
D.以上說法都不對
14.單選(2分)
假設會開車的本科生比例是15%,會開車的研究生比例是23%。若在某大學研究生占學生比例是20%,則會開車的學生是研究生的概率是多少?
√ A.27.7%
B.16.6%
C.23%
D. 15%
15.單選(2分)
假設有100張照片,其中,貓的照片有60張,狗的照片是40張。
識別結果:TP=40,FN=20,FP=10,TN=30,則可以得到:( )。
A.Accuracy=0.8
√ B.Precision=0.8
C.Recall=0.8
D.以上都不對
16.單選(2分)
以下關於訓練集、驗證集和測試集說法不正確的是( )。
A.測試集是純粹是用於測試模型泛化能力
√ B.訓練集是用來訓練以及評估模型性能
C.驗證集用於調整模型參數
D.以上說法都不對
17.單選(2分)
下列哪種方法可以用來緩解過擬合的產生:( )。
A.增加更多的特征
√ B.正則化
C.增加模型的復雜度
D.以上都是
18.單選(2分)
假設有 6 個二維數據點:D={(2,3),(5,7),(9,6),(4,5),(6,4),(7,2)},第一次切分時候,切分線為( )。
A.x=5
√ B.x=6
C.y=5
D.y=6
19.單選(2分)
兩個向量的長度分別為1和2,兩者之間的夾角為60度,則以下選項錯誤的是( )。
A.余弦相似度為0.5
B.余弦相似度為正
√ C.余弦相似度沒法計算,因為沒給出具體坐標值
D.余弦相似度的值與向量的長度無關,只和向量之間的夾角有關
20.單選(2分)
LightGBM與XGBoost相比,主要的優勢不包括( )
A.更快的訓練速度
B.更低的內存消耗
C.更好的准確率
√ D.采用二階泰勒展開加快收斂
21.單選(2分)
關於BP算法優缺點的說法錯誤的是 ( )。
√ A.BP算法不能用於處理非線性分類問題
B.BP算法訓練時間較長
C.BP算法容易陷入局部最小值
D.BP算法訓練時候可能由於權值調整過大使得激活函數達到飽和
22.單選(2分)
神經網絡算法有時會出現過擬合的情況,那么采取以下哪些方法解決過擬合更為可行()。
A.為參數選取多組初始值,分別訓練,再選取一組作為最優值
B.增大學習的步長
C.減少訓練數據集中數據的數量
√ D.設置一個正則項減小模型的復雜度
23.單選(2分)
SVM算法的最小時間復雜度是O(n^2)。基於這一點,以下哪種規格的數據集並不適用於該算法?( )
√ A.大數據集
B.小數據集
C.中數據集
D.不受數據集大小的影響
24.單選(2分)
一個正例(2,3),一個負例(0,-1),下面哪個是SVM超平面?( )
A.2x+y-4=0
B.2y+x-5=0
√ C.x+2y-3=0
D.無法計算
25.單選(2分)
下列關於Kmeans聚類算法的說法錯誤的是( )。
A.對大數據集有較高的效率並且具有可伸縮性
B.是一種無監督學習方法
C.K值無法自動獲取,初始聚類中心隨機選擇
√ D.初始聚類中心的選擇對聚類結果影響不大
26.單選(2分)
簡單地將數據對象集划分成不重疊的子集,使得每個數據對象恰在一個子集中,這種聚類類型稱作( )。
A.層次聚類
√ B.划分聚類
C.非互斥聚類
D.密度聚類
27.單選(2分)
以下關於PCA說法正確的是 ( )。
A.PCA是一種監督學習算法
B.PCA在轉換后的第一個新坐標軸選擇的是原始數據中方差最小的方向
√ C.PCA轉換后選擇的第一個方向是最主要特征
D.PCA不需要對數據進行歸一化處理
28.單選(2分)
關於Apriori和FP-growth算法說法正確的是( )。
A.Apriori比FP-growth操作更麻煩
B.FP-growth算法需要對項目進行配對,因此處理速度慢
C.FP-growth只需要一次遍歷數據,掃描效率高
√ D.FP-growth算法在數據庫較大時,不適宜共享內存
29.單選(2分)
某超市研究銷售紀錄數據后發現,買啤酒的人很大概率也會購買尿布,這種屬於數據挖掘的哪類問題?( )
√ A.關聯規則發現
B.聚類
C.分類
D.自然語言處理
30.單選(2分)
置信度(confidence)是衡量興趣度度量( )的指標。
A.簡潔性
√ B.確定性
C.實用性
D.新穎性
31.多選(2分)
下面哪些是分類算法?
√ A.根據腫瘤的體積、患者的年齡來判斷良性或惡性?
√ B.根據用戶的年齡、職業、存款數量來判斷信用卡是否會違約?
√ C.身高1.85m,體重100kg的男人穿什么尺碼的T恤?
D.根據房屋大小、衛生間數量等特征預估房價
32.多選(2分)
以下哪些是使用數據規范化(特征縮放)的原因?
A.它通過降低梯度下降的每次迭代的計算成本來加速梯度下降
√ B.它通過減少迭代次數來獲得一個好的解,從而加快了梯度下降的速度
√ C.它不能防止梯度下降陷入局部最優
D.它防止矩陣XTX不可逆(奇異/退化)
33.多選(2分)
影響KNN算法效果的主要因素包括( )。
√ A.K的值
√ B.距離度量方式
√ C.決策規則
D.最鄰近數據的距離
34.多選(2分)
支持向量機有哪些常用的核函數( )。
√ A.高斯核
B.拉普拉斯核
√ C.線性核
√ D.多項式核
35.多選(2分)
以下關於支持向量機的說法正確的是 ( )。
A.SVM適用於大規模數據集
B.SVM分類思想就是將分類面之間的間隔最小化
√ C.SVM方法簡單,魯棒性較好
√ D.SVM分類面取決於支持向量
36.多選(2分)
關於BP算法優點說法正確的是( )。
√ A.BP算法能夠自適應學習
√ B.BP算法有很強的非線性映射能力
√ C.BP算法反向傳播采用鏈式法則,推導過程嚴謹
D.BP算法泛化能力不強
37.多選(2分)
下面關於支持向量機的描述正確的是( )。
√ A.是一種監督學習的方法
√ B.可用於多分類的問題
√ C.支持非線性的核函數
D.是一種生成模型
38.多選(2分)
下面屬於降維常用的技術的有: ( )。
√ A.主成分分析
B.特征提取
√ C.奇異值分解
D.離散化
39.多選(2分)
PCA算法獲取的超平面應具有哪些性質 ( )。
√ A.最近重構性
B.信息增益最大性
√ C.最大可分性
D.局部極小性
40.多選(2分)
關於關聯規則,正確的是:( )。
√ A.關聯規則挖掘的算法主要有: Apriori和FP-Growth
√ B.一個項集滿足最小支持度,我們稱之為頻繁項集
C.啤酒與尿布的故事是聚類分析的典型實例
√ D.支持度是衡量關聯規則重要性的一個指標
41.判斷(1分)
支持向量是那些最接近決策平面的數據點
√ A.正確
B.錯誤
42.判斷(1分)
相關變量的相關系數可以為零,對嗎?
√ A.正確
B.錯誤
43.判斷(1分)
PCA會選取信息量最少的方向進行投影。
A.正確
√ B.錯誤
44.判斷(1分)
大部分的機器學習工程中,數據搜集、數據清洗、特征工程這三個步驟絕大部分時間,而數據建模,占總時間比較少。
√ A.正確
B.錯誤
45.判斷(1分)
隨機梯度下降,每次迭代時候,使用一個樣本。
√ A.正確
B.錯誤
46.判斷(1分)
朴素貝葉斯法的基本假設是條件獨立性。
√ A.正確
B.錯誤
47.判斷(1分)
SMOTE算法是用了上采樣的方法。
√ A.正確
B.錯誤
48.判斷(1分)
L2 正則化得到的解更加稀疏。
A.正確
√ B.錯誤
49.判斷(1分)
ID3 算法只能用於處理離散分布的特征。
√ A.正確
B.錯誤
50.判斷(1分)
集成學習的數據不需要歸一化或者標准化。
√ A.正確
B.錯誤
51.判斷(1分)
BP算法“喜新厭舊”,在學習新樣本后,會把舊樣本逐漸遺忘。
√ A.正確
B.錯誤
52.判斷(1分)
邏輯回歸分類的精度不夠高,因此在業界很少用到這個算法
A.正確
√ B.錯誤
53.判斷(1分)
SMOTE算法是用了上采樣的方法。
√ A.正確
B.錯誤
54.判斷(1分)
100萬條數據划分訓練集、驗證集、測試集,數據可以這樣划分:98%,1%,1% 。
√ A.正確
B.錯誤
55.判斷(1分)
K均值是一種產生划分聚類的基於密度的聚類算法,簇的個數由算法自動地確定。
A.正確
√ B.錯誤
56.判斷(1分)
朴素貝葉斯法的基本假設是條件獨立性。
√ A.正確
B.錯誤
57.判斷(1分)
特征空間越大,過擬合的可能性越大。
√ A.正確
B.錯誤
58.判斷(1分)
兩個向量的余弦相似度越接近1,說明兩者越相似。
√ A.正確
B.錯誤
59.判斷(1分)
K均值是一種產生划分聚類的基於密度的聚類算法,簇的個數由算法自動地確定。
A.正確
B.錯誤
60.判斷(1分)
ID3 算法的核心思想就是以信息增益來度量特征選擇,選擇信息增益最大的特征進行分裂。
√ A.正確
B.錯誤