深度學習 vs 機器學習 vs 模式識別
1)機器學習就像是一個真正的冠軍一樣持續昂首而上;
3)深度學習是個嶄新的和快速攀升的領域。
1. SVM經常使用的核函數有:(1)線性核函數(2)多項式核(3)徑向基核(RBF)(4)傅里葉核(5)樣條核(6)Sigmoid核函數
2. 序列模式挖掘算法:指挖掘相對時間或其他模式出現頻率高的模式,典型的應用還是限於離散型的序列。
Apriori類算法包括: AprioriAll和 GSP等。
在序列模式挖掘中,FreeSpan和PrefixSpan是兩個常用的算法。其中,PrefixSpan是從FreeSpan中推導演化而來的。這兩個算法都比傳統的Apriori-like的序列模式挖掘算法(GSP)都有效。而PrefixSpan又比FreeSpan又更有效。這是因為PrefixSpan的收縮速度比FreeSpan還要更快些。
典型應用:商場挖掘即用戶幾次購買行為間的聯系,可以采取更有針對性的營銷措施。
類似於Apriori算法大體分為候選集產生、候選集計數以及擴展分類三個階段。與AprioriAll算法相比,GSP算法統計較少的候選集,並且在數據轉換過程中不需要事先計算頻繁集。
3. 序列模式 VS 關聯規則
問題
|
序列模式挖掘
|
關聯規則挖掘
|
數據集
|
序列數據庫
|
事務數據庫
|
關注點
|
單項間在同一事務內以及事務間的關系
|
單項間在同一事務內的關系
|
5.特征選擇方法:信息增益、信息增益率、基尼系數
6. 基於核的算法:支持向量機(Support Vector Machine, SVM), 徑向基函數(Radial Basis Function ,RBF), 線性判別分析(Linear Discriminate Analysis ,LDA)等
7. 數據清理中,處理缺失值的方法是?
數據清理中,處理缺失值的方法有兩種:
刪除法:1)刪除觀察樣本
2)刪除變量:當某個變量缺失值較多且對研究目標影響不大時,可以將整個變量整體刪除
3)使用完整原始數據分析:當數據存在較多缺失而其原始數據完整時,可以使用原始數據替代現有數據進行分析
4)改變權重:當刪除缺失數據會改變數據結構時,通過對完整數據按照不同的權重進行加權,可以降低刪除缺失數據帶來的偏差
查補法:均值插補、回歸插補、抽樣填補等
成對刪除與改變權重為一類,估算與查補法為一類
8. 下列哪個不屬於CRF模型對於HMM和MEMM模型的優勢( )B
A. 特征靈活 B. 速度快 C. 可容納較多上下文信息 D. 全局最優
首先,CRF,HMM(隱馬模型),MEMM(最大熵隱馬模型)都常用來做序列標注的建模.
隱馬模型一個最大的缺點就是由於其輸出獨立性假設,導致其不能考慮上下文的特征,限制了特征的選擇
最大熵隱馬模型則解決了隱馬的問題,可以任意選擇特征,但由於其在每一節點都要進行歸一化,所以只能找到局部的最優值,同時也帶來了標記偏見的問題,即凡是訓練語料中未出現的情況全都忽略掉
條件隨機場則很好的解決了這一問題,他並不在每一個節點進行歸一化,而是所有特征進行全局歸一化,因此可以求得全局的最優值。
9. KNN和K-Means的區別
KNN |
K-Means |
1.KNN是分類算法
2.監督學習 3.喂給它的數據集是帶label的數據,已經是完全正確的數據 |
1.K-Means是聚類算法
2.非監督學習 3.喂給它的數據集是無label的數據,是雜亂無章的,經過聚類后才變得有點順序,先無序,后有序 |
沒有明顯的前期訓練過程,屬於memory-based learning | 有明顯的前期訓練過程 |
K的含義:來了一個樣本x,要給它分類,即求出它的y,就從數據集中,在x附近找離它最近的K個數據點,這K個數據點,類別c占的個數最多,就把x的label設為c | K的含義:K是人工固定好的數字,假設數據集合可以分為K個簇,由於是依靠人工定好,需要一點先驗知識 |
相似點:都包含這樣的過程,給定一個點,在數據集中找離它最近的點。即二者都用到了NN(Nears Neighbor)算法,一般用KD樹來實現NN。
10. 以下哪個是常見的時間序列算法模型B
A. RSIB. MACDC. ARMAD. KDJ
時間序列模型是指采用某種算法(可以是神經網絡、ARMA等)模擬歷史數據,找出其中的變化規律
時間序列算法模型主要有:移動平均算法、指數平滑算法及ARMA、ARIMA方法。 |