機器學習問題方法總結

本文轉載自查看原文 2012-08-28 22:04 17748 DataMining

大類	名稱	關鍵詞
有監督分類	決策樹	信息增益
	分類回歸樹	Gini指數，Χ²統計量，剪枝
	朴素貝葉斯	非參數估計，貝葉斯估計
	線性判別分析	Fishre判別，特征向量求解
	K最鄰近	相似度度量：歐氏距離、街區距離、編輯距離、向量夾角、Pearson相關系數
	邏輯斯諦回歸（二值分類）	參數估計（極大似然估計）、S型函數
	徑向基函數網絡	非參數估計、正則化理論、S型函數
	對偶傳播網絡	無導師的競爭學習、有導師的Widrow-Hoff學習
	學習向量量化網絡	一個輸出層細胞跟幾個競爭層細胞相連
	誤差反向傳播網絡	S型函數、梯度下降法
	支持向量機（二值分類）	二次規化，Lagrange乘數法，對偶問題，最優化，序列最小優化，核技巧
	單層感知器	只具有線性可分的能力
	雙隱藏層感知器	足以解決任何復雜的分類問題
無監督分類	KMeans	質心
	CHAMELONE	圖划分，相對互連度，相對緊密度
	BIRCH	B樹，CF三元組
	DBScan	核心點，密度可達
	EM算法(高斯混合模型)	參數估計（極大似然估計）
	譜聚類	圖划分，奇異值求解。全局收斂
	自組織映射網絡	無導師的競爭學習
回歸分析	一般線性回歸	參數估計，最小二乘法，一般不用於分類而用於預測
回歸分析	邏輯斯諦回歸（二值分類）	參數估計（極大似然估計），S型函數
關聯規則挖掘	FP-Tree	頻繁1項集，FP-Tree，條件模式基，后綴模式
降維	主成分分析	協方差矩陣，奇異值分解
推薦	協同過濾	稀疏向量的相似度度量

方法細分				應用場所
參數估計	極大似然估計			線性回歸。假設誤差滿足均值為0的正態分布,從而轉化為最小二乘法
				Logistic回歸。梯度下降迭代法求似然函數的極值
				高斯混合模型。
非參數估計				徑向基函數網絡
獨立性檢驗	無參數假設檢驗		χ²檢驗	特征詞選取，分類回歸樹的終止條件
			秩和檢驗
相關性檢驗	Pearson相關系數（假設x,y成對地從正態分布中取得）			基於向量空間模型的文本分類，用戶喜好推薦系統
	Spearman秩相關系數（無參數假設檢驗）
最優化方法	無約束最優化方法	梯度下降法		極大似然估計（回歸分析、GMM）支持向量機線性判別分析
		牛頓迭代法及其變種
	有約束時通過Lagrange乘數法轉換成無約束問題
求特征值/特征向量	冪法			線性判別分析	降維
	奇異值分解（僅針對對稱矩陣）			主成分分析
				譜聚類
信息論	信息增益			特征詞選擇
				決策樹
	互信息			特征詞選擇
	交叉熵			特征詞選擇，稀有事件建模仿真，多峰最優化問題
核函數	多項式核函數			SVM RBF網絡
	高斯核函數（徑向基函數）
	雙極性核函數
單極性Sigmoid函數				Logistic回歸
				BP神經網絡
協方差				Pearson相關系數
				PCA
EM算法				高斯混合模型
				向前向后算法
基函數				高斯混合模型
				徑向基函數網絡
平滑算法	拉普拉斯平滑			貝葉斯分類隱馬爾可夫模型
	Good-Turing平滑
隱馬爾可夫模型	評估問題—向前算法
	解碼問題—Viterbi算法			中文分詞，詞性標注
	學習問題—BaumWelch算法

　　Cover定理指出：將復雜的模式分類問題非線性地映射到高維空間將比投影到低維空間更可能線性可分。所以SVM和RBF網絡都試圖把樣本從低維空間映射到高維空間再進行分類。

　　好笑的是，另一些方法則是把輸入樣本從高維降到低維后再進行分類或回歸分析，如PCA、SOFM網絡、LDA、譜聚類，它們認為樣本在低維特征空間有更清晰的表達，更容易發現規律。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 機器學習面試問題總結常用機器學習方法總結機器學習降維方法總結機器學習個人總結機器學習總結六萬字總結機器學習面試問題機器學習面試總結機器學習之類別不平衡問題 (3) —— 采樣方法【機器學習】DNN訓練中的問題與方法機器學習--分類問題