不容錯過的50道機器學習面試題及答案


1.什么是機器學習
機器學習是為了應對系統程序設計,屬於計算機科學類的學科,它能根據經驗進行自動學習和提高。例如:一個由程序操縱的機器人,它能根據從傳感器搜集到的數據,完成一系列的任務和工作。它能根據數據自動地學習應用程序。
2.機器學習與數據挖掘的區別
機器語言是指在沒有明確的程序指令的情況下,給予計算機學習能力,使它能自主的學習、設計和擴展相關算法。數據挖掘則是一種從非結構化數據里面提取知識或者未知的、人們感興趣的圖片。在這個過程中應用了機器學習算法。
3.什么是機器學習的過度擬合現象
在機器學習中,當一個統計模型首先描述隨機誤差或噪聲,而不是自身的基本關系時,過度擬合就會出現。當一個模型是過於復雜,過擬合通常容易被發現,因為相對於訓練數據類型的數量,參數的數量過於五花八門。那么這個模型由於過度擬合而效果不佳。
4.過度擬合產生的原因
由於用於訓練模型的標准並不等同於判斷模型效率的標准,這導致了產生過度擬合的可能性。
5.如何避免過度擬合
當你使用較小的數據集進行機器學習時,容易產生過度擬合,因此使用較大的數據量能避免過度擬合現象。但是,當你不得不使用小型數據集進行建模時,可以使用被稱為交叉驗證的技術。在這種方法中數據集被分成兩節,測試和訓練數據集,測試數據集只測試模型,而在訓練數據集中,數據點被用來建模。
在該技術中,一個模型通常是被給定有先驗知識的數據集(訓練數據集)進行訓練,沒有先驗知識的數據集進行測試。交叉驗證的思想是:在訓練階段,定義一個數據集用來測試模型。
6.什么是感應式的機器學習?
感應機器學習涉及由實踐進行學習的過程,能從一組可觀測到的例子的嘗試推導出普遍性規則。
7.什么是機器學習的五個流行的算法?
決策樹2. 神經網絡(反向傳播)3. 概率網絡4.最鄰近法5. 支持向量機
8.機器學習有哪些不同的算法技術?
在機器學習不同類型的算法技術是:
監督學習2.非監督學習3. 半監督學習4. 轉導推理(Transduction)5.學習推理(Learning to Learn)。
9.在機器學習中,建立假設或者模型的三個階段指的是什么?
1.建模2.模型測試3.模型應用。
10.什么是監督學習的標准方法?
監督學習的標准方法是將一組示例數據的分成訓練數據集和測試數據集。
11.什么是訓練數據集和測試數據集?
在類似於機器學習的各個信息科學相關領域中,一組數據被用來發現潛在的預測關系,稱為“訓練數據集”。訓練數據集是提供給學習者的案例,而試驗數據集是用於測試由學習者提出的假設關系的准確度。
12.下面列出機器學習的各種方法?
機器學習的各種方法如下“
1.概念與分類學習(Concept Vs Classification Learning)。
2.符號與統計學習(Symbolic Vs Statistical Learning)。
3.歸納與分析學習(Inductive Vs Analytical Learning)。
13.非機器學習有哪些類型?
人工智能、規則推理。
14.什么是非監督學習的功能?
1.求數據的集群2. 求出數據的低維表達3. 查找數據有趣的方向4. 有趣的坐標和相關性5.發現顯著的觀測值和數據集清理
15.什么是監督學習的功能?
1.分類、2.語音識別3.回歸4.時間序列預測5. 注釋字符串
16.什么是算法獨立的機器學習?
機器學習在基礎數學領域獨立於任何特定分類器或者學習算法,被稱為算法獨立的機器學習。
17.人工智能與機器學習的區別?
 
基於經驗數據的特性而設計和開發的算法被稱為機器學習。而人工智能不但包括機器學習,還包括諸如知識表示,自然語言處理,規划,機器人技術等其它方法。
18.在機器學習中分類器指的是什么?
在機器學習中,分類器是指輸入離散或連續特征值的向量,並輸出單個離散值或者類型的系統。
19.朴素貝葉斯方法的優勢是什么?
朴素貝葉斯分類器將會比判別模型,譬如邏輯回歸收斂得更快,因此你只需要更少的訓練數據。其主要缺點是它學習不了特征間的交互關系。
20.在哪些領域使用模式識別技術?
模式識別被應用在:
計算機視覺2.語言識別3.統計4.數據挖掘5. 非正式檢索6. 生物信息學。
21.什么是遺傳編程?
遺傳編程的機器學習中兩種常用的方法之一。該模型是基於測試,並在一系列的結果當中,獲取最佳選擇。
22.在機器學習中歸納邏輯程序設計是指什么?
歸納邏輯程序設計(ILP)是利用邏輯程序設計表達的背景知識和實例,它是機器學習的一個分支。
23.在機器學習中,模型的選擇是指?
在不同的數學模型中,選擇用於描述相同的數據集的模型的過程被稱為模型選擇。模型選擇吧被應用於統計,機器學習和數據挖掘的等相關領域。
24.用於監督學習校准兩種方法是什么?
在監督學習中,用於預測良好概率的兩種方法是:
普拉特校准,2. 保序回歸。
這些方法被設計為二元分類,而且有意義的。
25. 什么方法通常用於防止過擬合?
當有足夠的數據進行等滲回歸時,這通常被用來防止過擬合問題。
26.規則學習的啟發式方法和決策樹的啟發式方法之間的區別是什么?
決策樹的啟發式方法評價的是一系列不相交的集合的平均質量;然而規則學習的啟發式方法僅僅評價在候選規則覆蓋下的實例集。
27.什么是感知機器學習?
在機器學習,感知器是一種輸入到幾個可能的非二進制輸出的監督分類算法。
28.貝葉斯邏輯程序的兩個組成部分是什么?
貝葉斯邏輯程序由兩部分組成。第一成分由一組貝葉斯條款組成,能捕捉特定域的定性結構。第二組分是定量的,它能對域的量化信息進行編碼。
29.什么是貝葉斯網絡?
貝葉斯網絡是用來表示一組變量之間為概率關系的圖像模型。
30.為什么基於實例的學習算法有時也被稱為懶惰學習算法?
基於實例的學習算法也被稱為懶惰學習算法,因為它們延緩誘導或泛化過程,直到分類完成。
31.支持向量機能處理哪兩種分類方法?
1.結合二分類法2. 修改二進制納入多類學習法。
32.什么是集成學習?
為了解決特定的計算程序,如分類器或專家知識等多種模式,進行戰略性生產和組合。這個過程被稱為集成學習。
33.為什么集成學習被應用?
集成學習能提高模型的分類,預測,函數逼近等方面的精度。
34.什么使用集成學習?
當你構建一個更准確,相互獨立的分類器時,使用集成學習。
35.什么是集成方法的兩種范式?
集成方法的兩種范式是:
連續集成方法2. 並行集成方法。
36.什么是集成方法的一般原則,在集成方法中套袋(bagging)和爆發(boosting)指的是什么?
集成方法的一般原則是要結合定的學習算法多種預測模型,相對於單一模型,其有更強的健壯性。套袋是一種能提高易變的預測或分類方案集成方法。爆發方法被依次用來減少組合模型的偏差。爆發和裝袋都可以通過降低方差減少誤差。
37.什么是集成方法分類錯誤的偏置方差分解?
學習算法的期望誤差可以分解為偏差和方差。偏置項衡量由學習方法產生的平均分類器與目標函數是否匹配。
38.在集成方法中什么是增量合成方法?
增量學習方法是一種從新數據進行學習,並能應用於后續由現有的數據集生成的分類器的算法。
39.PCA,KPCA和ICE如何使用?
PCA(主成分分析),KPCA(基於內核主成分分析)和ICA(獨立成分分析)是用於降維的重要特征提取技術。
40.在機器學習中降維是什么意思?
在機器學習和統計應用中,降維是指在計算時減少隨機變量數目的處理過程,並且可以分為特征選擇和特征提取。
41.什么是支持向量機?
支持向量機是一種監督學習算法,適用於分類和回歸分析。
42.關系評價技術的組成部分是什么?
關系評價技術的重要組成部分如下:
1.數據采集2. 地面實況采集3. 交叉驗證技術4. 查詢類型5. 評分標准6. 顯着性檢驗。
43.連續監督學習有什么不同方法?
連續監督學習問題的不同解決辦法如下:
滑動窗口方法2. 復發性推拉窗3. 隱藏馬爾科夫模型4. 最大熵馬爾科夫模型5. 條件隨機域6. 圖變換網絡。
44.在機器人技術和信息處理技術的哪些方面會相繼出現預測問題?
在機器人技術和信息處理技術中,相繼出現預測問題的是:
模仿學習2. 結構預測3. 基於模型的強化學習。
45.什么是批量統計學習?
統計學習技術允許根據一組觀察到的數據進行學習功能和預測,這可以對無法觀察和未知的數據進行預測。這些技術提供的學習預測器對未來未知數據的預測提供性能保證。
46什么是PAC學習?
可能近似正確模型 (PAC) 學習是一個已經被引入到分析學習算法和統計效率的學習框架。
47有哪些不同的類別可以分為序列學習過程?
序列預測2. 序列生成3. 序列識別4. 順序決定.
48什么是序列學習?
序列學習是一種以合乎邏輯的方式進行教學和學習的方法。
49.機器學習的兩種技術是什么?
機器學習的兩種技術是:
1.遺傳編程2.歸納學習
50.你在日常工作中看到的機器學習的一個流行應用是什么?
各大電商網站上已部署好的推薦引擎使用的是機器學習。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM