推薦系統常見面試題2

15、Bias和Variance的區別

Bias度量了學習算法的期望預測與真實結果的偏離程度，即刻畫了算法本身的擬合能力。

Variance度量了同樣大小的訓練集的變動所導致的學習性能變化，即刻畫了數據擾動所造成的影響。

16、對於支持向量機，高斯核一般比線性核有更好的精度，但實際應用中為什么一般用線性核而不用高斯核？

如果訓練的樣本的量很大，訓練得到的模型中支持向量的數量太多，在每次做預測時，高斯核需要計算帶預測樣本與每個支持向量的內積，然后做核函數變換，這回非常耗時；而線性核只需要計算 $X^{T}+b$

17、高斯混合模型中，為什么各個高斯分量的權重和要保證為1？

為了保證這個函數是一個概率密度函數，即積分值為1。

18、為什么很多時候用正太分布來對隨機變量建模？

現實世界中很多變量都服從或近似服從正太分布。中心極限定理指出，抽樣得到的多個獨立同分布的隨機變量樣本，當樣本數趨向於正無窮時，它們的和服從正太分布。

19、協同過濾算法如何實現，用戶特征向量用哪些用戶屬性表示，如何挖掘更多的用戶信息？

20、說出計算用戶之間相似度的三種方式？

Jaccard相似度

傑卡德相似度（Jaccard similarity coefficient），也稱為傑卡德指數(Jaccard similarity)，是用來衡量兩個集合相似度的一種指標。Jaccard相似指數被定義為兩個集合交集的元素個數除以並集的元素個數。

余弦相似度

將向量根據坐標值，繪制到向量空間中，求得它們的夾角，並求得夾角之間的余弦值，此余弦值就可以用來表征，這兩個向量之間的相似性。夾角越小，余弦值越接近於1，則越相似。

Pearson系數（皮爾森系數）

皮爾遜系數也稱為積差相關（或積矩相關），是英國統計學家皮爾遜提出的一種計算直線相關的方法。取值范圍[-1.1]。

21、說出你的推薦算法的效果，如何提升推薦准確率，如何知道推薦結果是否正確？

22、數據預處理中，預處理哪些數據？如何預處理？

協同過濾的數據源主要是收集用戶數據，如用戶的行為，而預處理的工作是數據歸一化、降維和去噪等。

歸一化

在使用用戶行為時，針對不同的操作，可能需要加權。有些特征量級可能非常大，需要對數據做歸一化，將其限制在一個相同的取值范圍內。

度量數據的相似度

觀察哪些特征之間相關性比較高，后期可以考慮做特征組合。

正負樣本不均衡

采用下采樣，減少負樣本數目。

降維

緩解數據稀疏性問題。

去噪

采用去噪，減少異常操作（誤操作/離群點）對推薦系統結果的影響。

23、訓練決策樹時的參數是什么？

criterion 分裂標准分類---“gini”；回歸---“mse” entropy：分裂節點時的評價指標是信息增益
max_depth：樹的最大深度。如果為None，則深度不限，直到所有的葉子節點都是純凈的，即葉子節點中所有的樣本點都屬於一個類別。或者每個葉子節點樣本數目小於min_sample_split
min_sample_split：分裂一個葉子節點所需要的最小樣本數
min_sample_leaf：每個葉子節點包含的最小樣本數
min_weight_fraction_leaf：葉子節點中樣本的最小權重
max_feature：分類時考慮的最多特征數
random_state：隨機數生成器的種子
max_leaf_nodes：最大葉子節點數量
min_impurity_split：樹生長過程中過早停止的閾值。
presort：是否需要提前排序數據

24、在決策樹的節點處分割的標准是什么？

DecisionTreeClassifier()----criterion：'gini' or 'entropy'(default =gini)，前者是基尼系數，后者是信息熵（信息增益）

DecisionTreeRgrossor()----criterion：'mse' 均方誤差

25、隨機森林的優點？

1.生成方式

隨機生成的具有多棵決策樹的分類器。輸出結果由多棵樹的輸出結果加權或者取平均而成。

2.隨機性體現在兩個方面

訓練數據采用bootstrap方式，從數據集中取出一個樣本數為N的訓練集
在每個節點上，隨機選擇所有特征的一個子集

3.優點

在很多數據集上表現良好
能夠處理高緯度的數據，且不用做特征選擇（特征子集是隨機選擇的）
訓練速度快，容易做成並行化方法（訓練時，樹與樹之間相互獨立）
訓練過程中，能檢測到特征間的相互影響

26、介紹下boosting算法

boosting思路：通過訓練多個若學習器，最后整合為一個強學習器的過程

從兩個方面考慮：

增大訓練集中，分錯樣本的權重，減小分對樣本的權重
增大分錯率低的學習器的權重，減小分錯率高的學習器的權重。

27、SVM中用到了哪些核？SVM中的優化技術有哪些？

28、GBM和隨機森林都是基於樹的算法，它們有什么區別？

RF采用bagging技術做出預測；GBM采用boosting技術做出預測
bagging技術，數據集采用bootstrap隨機采樣的方法被划分為n個樣本，對多棵樹的結果進行加權或者取平均；boosting在第一輪預測之后，增加分類出錯的樣本權重，減小錯誤率高的基學習器（樹）的權重，持續進行，一直到達停止標准。
RF采用減小方差提高模型精度，生成樹之間沒有相關性；GBM在提高精度的同時降低了偏差和方差，某一個基學習器是以上一個基學習器的結果為基礎，基學習器之間具有相關性。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 操作系統常見面試題操作系統的常見面試題 Hibernate常見面試題 Hibernate常見面試題 flask常見面試題 php常見面試題總結 SQL常見面試題 JS常見面試題(一) 【Python】【Django】常見面試題 ssm常見面試題