推薦系統常見面試題2


原文鏈接:https://blog.csdn.net/weixin_38664232/article/details/89975716

15、Bias和Variance的區別

Bias度量了學習算法的期望預測與真實結果的偏離程度,即刻畫了算法本身的擬合能力。

Variance度量了同樣大小的訓練集的變動所導致的學習性能變化,即刻畫了數據擾動所造成的影響。

16、對於支持向量機,高斯核一般比線性核有更好的精度,但實際應用中為什么一般用線性核而不用高斯核?

如果訓練的樣本的量很大,訓練得到的模型中支持向量的數量太多,在每次做預測時,高斯核需要計算帶預測樣本與每個支持向量的內積,然后做核函數變換,這回非常耗時;而線性核只需要計算X^{T}+b

17、高斯混合模型中,為什么各個高斯分量的權重和要保證為1?

為了保證這個函數是一個概率密度函數,即積分值為1。

18、為什么很多時候用正太分布來對隨機變量建模?

現實世界中很多變量都服從或近似服從正太分布。中心極限定理指出,抽樣得到的多個獨立同分布的隨機變量樣本,當樣本數趨向於正無窮時,它們的和服從正太分布。

19、協同過濾算法如何實現,用戶特征向量用哪些用戶屬性表示,如何挖掘更多的用戶信息?

20、說出計算用戶之間相似度的三種方式?

Jaccard相似度

傑卡德相似度(Jaccard similarity coefficient),也稱為傑卡德指數(Jaccard similarity),是用來衡量兩個集合相似度的一種指標。Jaccard相似指數被定義為兩個集合交集的元素個數除以並集的元素個數。

余弦相似度

將向量根據坐標值,繪制到向量空間中,求得它們的夾角,並求得夾角之間的余弦值,此余弦值就可以用來表征,這兩個向量之間的相似性。夾角越小,余弦值越接近於1,則越相似。

Pearson系數(皮爾森系數)

皮爾遜系數也稱為積差相關(或積矩相關),是英國統計學家皮爾遜提出的一種計算直線相關的方法。取值范圍[-1.1]。

21、說出你的推薦算法的效果,如何提升推薦准確率,如何知道推薦結果是否正確?

22、數據預處理中,預處理哪些數據?如何預處理?

協同過濾的數據源主要是收集用戶數據,如用戶的行為,而預處理的工作是數據歸一化、降維和去噪等。

歸一化

在使用用戶行為時,針對不同的操作,可能需要加權。有些特征量級可能非常大,需要對數據做歸一化,將其限制在一個相同的取值范圍內。

度量數據的相似度

觀察哪些特征之間相關性比較高,后期可以考慮做特征組合。

正負樣本不均衡

采用下采樣,減少負樣本數目。

降維

緩解數據稀疏性問題。

去噪

采用去噪,減少異常操作(誤操作/離群點)對推薦系統結果的影響。

23、訓練決策樹時的參數是什么?

  • criterion  分裂標准    分類---“gini”;回歸---“mse”      entropy:分裂節點時的評價指標是信息增益
  • max_depth:樹的最大深度。如果為None,則深度不限,直到所有的葉子節點都是純凈的,即葉子節點中所有的樣本點都屬於一個類別。或者每個葉子節點樣本數目小於min_sample_split
  • min_sample_split:分裂一個葉子節點所需要的最小樣本數
  • min_sample_leaf:每個葉子節點包含的最小樣本數
  • min_weight_fraction_leaf:葉子節點中樣本的最小權重
  • max_feature:分類時考慮的最多特征數
  • random_state:隨機數生成器的種子
  • max_leaf_nodes:最大葉子節點數量
  • min_impurity_split:樹生長過程中過早停止的閾值。
  • presort:是否需要提前排序數據

24、在決策樹的節點處分割的標准是什么?

DecisionTreeClassifier()----criterion:'gini' or 'entropy'(default =gini),前者是基尼系數,后者是信息熵(信息增益)

DecisionTreeRgrossor()----criterion:'mse'  均方誤差

25、隨機森林的優點?

1.生成方式

隨機生成的具有多棵決策樹的分類器。輸出結果由多棵樹的輸出結果加權或者取平均而成。

2.隨機性體現在兩個方面

  1. 訓練數據采用bootstrap方式,從數據集中取出一個樣本數為N的訓練集
  2. 在每個節點上,隨機選擇所有特征的一個子集

3.優點

  1. 在很多數據集上表現良好
  2. 能夠處理高緯度的數據,且不用做特征選擇(特征子集是隨機選擇的)
  3. 訓練速度快,容易做成並行化方法(訓練時,樹與樹之間相互獨立)
  4. 訓練過程中,能檢測到特征間的相互影響

26、介紹下boosting算法

boosting思路:通過訓練多個若學習器,最后整合為一個強學習器的過程

從兩個方面考慮:

  1. 增大訓練集中,分錯樣本的權重,減小分對樣本的權重
  2. 增大分錯率低的學習器的權重,減小分錯率高的學習器的權重。

27、SVM中用到了哪些核?SVM中的優化技術有哪些?

28、GBM和隨機森林都是基於樹的算法,它們有什么區別?

  1. RF采用bagging技術做出預測;GBM采用boosting技術做出預測
  2. bagging技術,數據集采用bootstrap隨機采樣的方法被划分為n個樣本,對多棵樹的結果進行加權或者取平均;boosting在第一輪預測之后,增加分類出錯的樣本權重,減小錯誤率高的基學習器(樹)的權重,持續進行,一直到達停止標准。
  3. RF采用減小方差提高模型精度,生成樹之間沒有相關性;GBM在提高精度的同時降低了偏差和方差,某一個基學習器是以上一個基學習器的結果為基礎,基學習器之間具有相關性。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM