原文鏈接:https://blog.csdn.net/weixin_38664232/article/details/89975716
15、Bias和Variance的區別
Bias度量了學習算法的期望預測與真實結果的偏離程度,即刻畫了算法本身的擬合能力。
Variance度量了同樣大小的訓練集的變動所導致的學習性能變化,即刻畫了數據擾動所造成的影響。
16、對於支持向量機,高斯核一般比線性核有更好的精度,但實際應用中為什么一般用線性核而不用高斯核?
如果訓練的樣本的量很大,訓練得到的模型中支持向量的數量太多,在每次做預測時,高斯核需要計算帶預測樣本與每個支持向量的內積,然后做核函數變換,這回非常耗時;而線性核只需要計算
17、高斯混合模型中,為什么各個高斯分量的權重和要保證為1?
為了保證這個函數是一個概率密度函數,即積分值為1。
18、為什么很多時候用正太分布來對隨機變量建模?
現實世界中很多變量都服從或近似服從正太分布。中心極限定理指出,抽樣得到的多個獨立同分布的隨機變量樣本,當樣本數趨向於正無窮時,它們的和服從正太分布。
19、協同過濾算法如何實現,用戶特征向量用哪些用戶屬性表示,如何挖掘更多的用戶信息?
20、說出計算用戶之間相似度的三種方式?
Jaccard相似度
傑卡德相似度(Jaccard similarity coefficient),也稱為傑卡德指數(Jaccard similarity),是用來衡量兩個集合相似度的一種指標。Jaccard相似指數被定義為兩個集合交集的元素個數除以並集的元素個數。
余弦相似度
將向量根據坐標值,繪制到向量空間中,求得它們的夾角,並求得夾角之間的余弦值,此余弦值就可以用來表征,這兩個向量之間的相似性。夾角越小,余弦值越接近於1,則越相似。
Pearson系數(皮爾森系數)
皮爾遜系數也稱為積差相關(或積矩相關),是英國統計學家皮爾遜提出的一種計算直線相關的方法。取值范圍[-1.1]。
21、說出你的推薦算法的效果,如何提升推薦准確率,如何知道推薦結果是否正確?
22、數據預處理中,預處理哪些數據?如何預處理?
協同過濾的數據源主要是收集用戶數據,如用戶的行為,而預處理的工作是數據歸一化、降維和去噪等。
歸一化
在使用用戶行為時,針對不同的操作,可能需要加權。有些特征量級可能非常大,需要對數據做歸一化,將其限制在一個相同的取值范圍內。
度量數據的相似度
觀察哪些特征之間相關性比較高,后期可以考慮做特征組合。
正負樣本不均衡
采用下采樣,減少負樣本數目。
降維
緩解數據稀疏性問題。
去噪
采用去噪,減少異常操作(誤操作/離群點)對推薦系統結果的影響。
23、訓練決策樹時的參數是什么?
- criterion 分裂標准 分類---“gini”;回歸---“mse” entropy:分裂節點時的評價指標是信息增益
- max_depth:樹的最大深度。如果為None,則深度不限,直到所有的葉子節點都是純凈的,即葉子節點中所有的樣本點都屬於一個類別。或者每個葉子節點樣本數目小於min_sample_split
- min_sample_split:分裂一個葉子節點所需要的最小樣本數
- min_sample_leaf:每個葉子節點包含的最小樣本數
- min_weight_fraction_leaf:葉子節點中樣本的最小權重
- max_feature:分類時考慮的最多特征數
- random_state:隨機數生成器的種子
- max_leaf_nodes:最大葉子節點數量
- min_impurity_split:樹生長過程中過早停止的閾值。
- presort:是否需要提前排序數據
24、在決策樹的節點處分割的標准是什么?
DecisionTreeClassifier()----criterion:'gini' or 'entropy'(default =gini),前者是基尼系數,后者是信息熵(信息增益)
DecisionTreeRgrossor()----criterion:'mse' 均方誤差
25、隨機森林的優點?
1.生成方式
隨機生成的具有多棵決策樹的分類器。輸出結果由多棵樹的輸出結果加權或者取平均而成。
2.隨機性體現在兩個方面
- 訓練數據采用bootstrap方式,從數據集中取出一個樣本數為N的訓練集
- 在每個節點上,隨機選擇所有特征的一個子集
3.優點
- 在很多數據集上表現良好
- 能夠處理高緯度的數據,且不用做特征選擇(特征子集是隨機選擇的)
- 訓練速度快,容易做成並行化方法(訓練時,樹與樹之間相互獨立)
- 訓練過程中,能檢測到特征間的相互影響
26、介紹下boosting算法
boosting思路:通過訓練多個若學習器,最后整合為一個強學習器的過程
從兩個方面考慮:
- 增大訓練集中,分錯樣本的權重,減小分對樣本的權重
- 增大分錯率低的學習器的權重,減小分錯率高的學習器的權重。
27、SVM中用到了哪些核?SVM中的優化技術有哪些?
28、GBM和隨機森林都是基於樹的算法,它們有什么區別?
- RF采用bagging技術做出預測;GBM采用boosting技術做出預測
- bagging技術,數據集采用bootstrap隨機采樣的方法被划分為n個樣本,對多棵樹的結果進行加權或者取平均;boosting在第一輪預測之后,增加分類出錯的樣本權重,減小錯誤率高的基學習器(樹)的權重,持續進行,一直到達停止標准。
- RF采用減小方差提高模型精度,生成樹之間沒有相關性;GBM在提高精度的同時降低了偏差和方差,某一個基學習器是以上一個基學習器的結果為基礎,基學習器之間具有相關性。