機器學習-筆試題總結1


深度學習 vs 機器學習 vs 模式識別

模式識別:智能程序的誕生。
機器學習:從樣本中學習的智能程序。
深度學習:一統江湖的架構。受寵愛最多的就是被用在大規模圖像識別任務中的卷積神經網絡。


1)機器學習就像是一個真正的冠軍一樣持續昂首而上;
2)模式識別一開始主要是作為機器學習的代名詞;模式識別正在慢慢沒落和消亡;

3)深度學習是個嶄新的和快速攀升的領域。

1. SVM經常使用的核函數有(1)線性核函數(2)多項式核(3)徑向基核(RBF)(4)傅里葉核(5)樣條核(6)Sigmoid核函數

2. 序列模式挖掘算法:指挖掘相對時間或其他模式出現頻率高的模式,典型的應用還是限於離散型的序列。


 


Apriori類算法包括: AprioriAll和 GSP等。

 

在序列模式挖掘中,FreeSpan和PrefixSpan是兩個常用的算法。其中,PrefixSpan是從FreeSpan中推導演化而來的。這兩個算法都比傳統的Apriori-like的序列模式挖掘算法(GSP)都有效。而PrefixSpan又比FreeSpan又更有效。這是因為PrefixSpan的收縮速度比FreeSpan還要更快些。 

 

典型應用:商場挖掘即用戶幾次購買行為間的聯系,可以采取更有針對性的營銷措施。

 

類似於Apriori算法大體分為候選集產生、候選集計數以及擴展分類三個階段。與AprioriAll算法相比,GSP算法統計較少的候選集,並且在數據轉換過程中不需要事先計算頻繁集。



3. 序列模式 VS 關聯規則

 

問題
序列模式挖掘
關聯規則挖掘
數據集
序列數據庫
事務數據庫
關注點
單項間在同一事務內以及事務間的關系
單項間在同一事務內的關系





. 類域界面方程法中,求線性不可分情況下分類問題近似或精確解的方法是?
神經網絡處理不可分現象

5.特征選擇方法:信息增益、信息增益率、基尼系數


6. 基於核的算法:支持向量機(Support Vector Machine, SVM), 徑向基函數(Radial Basis Function ,RBF), 線性判別分析(Linear Discriminate Analysis ,LDA)等


7. 數據清理中,處理缺失值的方法是?


數據清理中,處理缺失值的方法有兩種:



刪除法:1)刪除觀察樣本

       2)刪除變量:當某個變量缺失值較多且對研究目標影響不大時,可以將整個變量整體刪除

       3)使用完整原始數據分析:當數據存在較多缺失而其原始數據完整時,可以使用原始數據替代現有數據進行分析

       4)改變權重:當刪除缺失數據會改變數據結構時,通過對完整數據按照不同的權重進行加權,可以降低刪除缺失數據帶來的偏差


查補法:均值插補、回歸插補、抽樣填補等

成對刪除與改變權重為一類,估算與查補法為一類


 


8. 下列哪個不屬於CRF模型對於HMM和MEMM模型的優勢( )B

 

  A. 特征靈活  B. 速度快  C. 可容納較多上下文信息  D. 全局最優

 

首先,CRF,HMM(隱馬模型),MEMM(最大熵隱馬模型)都常用來做序列標注的建模.

 

隱馬模型一個最大的缺點就是由於其輸出獨立性假設,導致其不能考慮上下文的特征,限制了特征的選擇

 

最大熵隱馬模型則解決了隱馬的問題,可以任意選擇特征,但由於其在每一節點都要進行歸一化,所以只能找到局部的最優值,同時也帶來了標記偏見的問題,即凡是訓練語料中未出現的情況全都忽略掉

 

條件隨機場則很好的解決了這一問題,他並不在每一個節點進行歸一化,而是所有特征進行全局歸一化,因此可以求得全局的最優值。

 



9. KNN和K-Means的區別

 

KNN

K-Means

1.KNN是分類算法 

 

2.監督學習 

3.喂給它的數據集是帶label的數據,已經是完全正確的數據

1.K-Means是聚類算法 

 

2.非監督學習 

3.喂給它的數據集是無label的數據,是雜亂無章的,經過聚類后才變得有點順序,先無序,后有序

沒有明顯的前期訓練過程,屬於memory-based learning 有明顯的前期訓練過程
K的含義:來了一個樣本x,要給它分類,即求出它的y,就從數據集中,在x附近找離它最近的K個數據點,這K個數據點,類別c占的個數最多,就把x的label設為c K的含義:K是人工固定好的數字,假設數據集合可以分為K個簇,由於是依靠人工定好,需要一點先驗知識


相似點:都包含這樣的過程,給定一個點,在數據集中找離它最近的點。即二者都用到了NN(Nears Neighbor)算法,一般用KD樹來實現NN。




 

10. 以下哪個是常見的時間序列算法模型B

 

 A. RSIB. MACDC. ARMAD. KDJ

 

時間序列模型是指采用某種算法(可以是神經網絡、ARMA等)模擬歷史數據,找出其中的變化規律

 

時間序列算法模型主要有:移動平均算法、指數平滑算法及ARMA、ARIMA方法。











免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM