試答系列:“西瓜書”-周志華《機器學習》習題試答
系列目錄
[第01章:緒論]
[第02章:模型評估與選擇]
[第03章:線性模型]
[第04章:決策樹]
[第05章:神經網絡]
[第06章:支持向量機]
第07章:貝葉斯分類器
第08章:集成學習
第09章:聚類
第10章:降維與度量學習
第11章:特征選擇與稀疏學習
第12章:計算學習理論(暫缺)
第13章:半監督學習
第14章:概率圖模型
(后續章節更新中...)
- 11.1 試編程實現Relief算法,並考察其在西瓜數據集3.0上的運行結果。
- 11.2 試寫出Relief-F的算法描述。
- 11.3 Relief算法是分別考察每個屬性的重要性。試設計一個能考察每一對屬性重要性的改進算法。
- 11.4 試為LVW設計一個改進算法,即便有運行時間限制,該算法也一定能給出解。
- 11.5 結合圖11.2,試舉例說明L1正則化在何種情況下不能產生稀疏解。
- 11.6 試析嶺回歸與支持向量機的聯系。
- 11.7 試述直接求解L0范數正則化會遇到的困難。
- 11.8 試給出求解L1范數最小化問題中的閉式解(11.14)的詳細推導過程。
- 11.9 試述字典學習與壓縮感知對稀疏性利用的異同。(暫缺)
- 11.10 試改進式(11.15),以學習出具有分組稀疏性的字典。(暫缺)
- 附:編程代碼
11.1 試編程實現Relief算法,並考察其在西瓜數據集3.0上的運行結果。
答:詳細代碼附后。需要注意的是:在計算樣本間距離尋找最近鄰樣本時,由於西瓜數據集3.0中含有離散屬性,其中既有“有序屬性”,又有“無序屬性”,嚴格來說,可以按照第9章9.3節中介紹的方法進行計算。但是,在這里為了與(11.3)式中的距離計算方法保持一致,簡單地處理為:值同為0,值異為1,不考慮“序”關系。
運行結果(按相關統計量從大到小排列):
特征 | 紋理 | 臍部 | 根蒂 | 含糖率 | 密度 | 敲聲 | 觸感 | 色澤 |
---|---|---|---|---|---|---|---|---|
相關統計量 | 9 | 7 | 4 | 2.04 | -0.5 | -1 | -4 | -7 |
11.2 試寫出Relief-F的算法描述。
答:
- 輸入:樣本數據X,類標記Y
- 過程:
01:計算樣本數m,特征數n,類別數N=|y|,各類樣本所占比例p
02:初始化相關統計量\(\delta=\text{zeros}(n)\)
03:for \(i\)=1,2,…,m:
04: \(x_i\)的所屬類別為\(k\)
05: 在\(x_i\)的同類樣本中找到最近鄰同類樣本\(x_{i,nh}\)
06: for \(j\)=1,2,…,n:
07: \(δ_j=δ_j-\text{diff}(x_i^j-x_{i,nh}^j)^2\)
08: for \(l\)=1,2,...,k-1,k+1,…,N :
09: 在屬於\(l\)類別的樣本子集\(D_l\)中找到與\(x_i\)最近鄰的樣本\(x_{i,l,nm}\)
10: for \(j\)=1,2,…,n:
11: \(δ_j=δ_j+p_l*\text{diff}(x_i^j-x_{i,l,nm}^j)^2\) - 輸出:相關統計量\(δ\)
11.3 Relief算法是分別考察每個屬性的重要性。試設計一個能考察每一對屬性重要性的改進算法。
答:只需將計算單個屬性相關統計量的(11.3)式擴充為針對兩個屬性的統計量即可:
11.4 試為LVW設計一個改進算法,即便有運行時間限制,該算法也一定能給出解。
答:當時間到了,但是t≥T的條件未到,將當前搜索到的最佳解A*給出即可。不會這么簡單吧,或許沒能理解題意?
11.5 結合圖11.2,試舉例說明L1正則化在何種情況下不能產生稀疏解。
答:
觀察上圖左,在\(L_2\)情況下,取得最優解\(ω^*\)時,必然有平方誤差等值線和\(L_2\)等值線在\(ω^*\)處相切,或者說,斜率相等,或者說,梯度方向剛好反向。
\(L_2\)等值線是一組圓,在第一象限中,從A點至B點,斜率從0連續變化到-∞。於是,平方誤差等值線在第一象限中只要是單調遞減曲線,總能夠與\(L_2\)等值線相切。
因此,\(L_2\)等值線與平方誤差等值線很容易在各個象限中發生相切,無法產生稀疏解。
在\(L_1\)的情況下,\(L_1\)等值線在各個象限中的斜率總是等於±1。
參見上圖右,觀察第一象限的情況:\(L_1\)等值線的斜率為-1,誤差等值線1在第一象限中斜率絕對值總是小於1,無法與\(L_1\)等值線相切;誤差等值線2的斜率存在k=-1的點,能夠與\(L_1\)等值線相切;誤差等值線3的斜率絕對值總是大於1,也無法與L1等值線相切。
因此,在\(L_1\)情況下,\(L_1\)等值線和與誤差等值線在很多情況下無法相切,最優解只能發生在坐標軸上,對應於稀疏解。
當誤差等值線在第1、3象限存在斜率為-1的點,或者在第2、4象限存在斜率為1的點時,能夠與\(L_1\)等值線發生相切,此時,無法產生稀疏解。
11.6 試析嶺回歸與支持向量機的聯系。
答:嶺回歸與支持向量機,前者是回歸,后者是分類,作為比較,將嶺回歸與支持向量回歸進行比較,更加合適。
嶺回歸的表達式為(11.6)式:
支持向量回歸的表達式為(6.43)式:
嶺回歸和支持向量回歸的優化目標表達式非常相近,不同點在於采用的損失函數不同,嶺回歸采用平方誤差損失函數,而支持向量回歸采用\(\epsilon\)不敏感損失:
另外,我們知道支持向量回歸的結果表達為支持向量的形式,其解是稀疏性的。在本章又知道,嶺回歸采用\(L_2\)正則化,其結果不稀疏,而LASSO采用\(L_1\)正則化,其結果稀疏。因此,在支持向量機和支持向量回歸中,盡管也采用\(L_2\)正則化,其結果的稀疏性是由於所采用的損失函數形式導致的;而在LASSO中,其稀疏性是由\(L_1\)正則化導致的。
11.7 試述直接求解L0范數正則化會遇到的困難。
答:\(L_0\)范數等於非零元素的個數,亦即\(|\omega|_0=\sum_i (\omega_i\neq 0)\)。考慮二維的情況,此時的等值線比較特殊:在原點,\(L_0\)=0; 在各個坐標軸上\(L_0\)=1; 在各個象限區域,\(L_0\)=2。
在各個象限區域時,\(L_0\)項為一個常量,等於2,此時求解最優解相當於\(L_0\)項不存在一樣。可以設想一下,求解L0正則化下的回歸問題大概是這樣子的:
- 先不考慮\(L_0\)項,求解平方誤差項的最優解為\(\omega^{*1}\),以及對應的目標函數值\(J_1=\text{erro}_1+2\);
- 然后限定\(\omega_1=0\),求解此時的最優解為\(\omega^{*2}\),以及對應的目標函數值\(J_2=\text{erro}_2+1\);
- 然后限定\(\omega_2=0\),求解此時的最優解為\(\omega^{*3}\),以及對應的目標函數值\(J_3=\text{erro}_3+1\);
- 然后計算\(\omega=0\)時的目標函數值\(J_4=\text{erro}_4\);
- 最后,比較\(J_1\sim J_4\),擇其最小者作為最終結果。
推而廣之,在\(L_0\)正則化時的求解方法是,分別設定\(\omega\)中某些元素為零的情況下,求解無正則化的優化問題,最終比較各種情況下的目標函數值,確定最優解。
貌似也沒什么困難的吧,只是比較繁雜而已。
設特征數為N,則按照上面的方法,要在\(2^N\)的情況下分別求解優化問題,這個次數隨特征數指數級增長,當特征數較多時,比較困難。
11.8 試給出求解L1范數最小化問題中的閉式解(11.14)的詳細推導過程。
答:(11.13)式可以表示為各個分量相加的形式,各個分量互不影響,因此略去下標i,將x看成標量,於是(11.13)可以改寫為:
令等式右邊的目標函數為g(x),對其求導有:
其中sign(x)是符號函數,x為正時等於1,x為負時等於-1,在x=0處存在突變。
如果對\(g^\prime (x)\)函數圖像作圖,其中\(L(x-z)\)是一條直線,后一部分\(\lambda \text{sign}(x)\)的效果是在x>0時將曲線向上平移\(\lambda\),x<0時曲線向下平移\(\lambda\)。對\(g^\prime (x)\)除以正數L,不影響最小化結果。對\(g^\prime (x)/L\)函數變化曲線分情況作圖如下:
\(g^\prime(x)=0\),或者正負號改變處對應於極小值取值處,於是有(11.14)式的結論:
11.9 試述字典學習與壓縮感知對稀疏性利用的異同。(暫缺)
答:
11.10 試改進式(11.15),以學習出具有分組稀疏性的字典。(暫缺)
答:
附:編程代碼
習題11.1(Python)
# -*- coding: utf-8 -*-
"""
Created on Mon May 18 11:34:22 2020
@author: MS
11.1 試編程實現Relief算法,並考察其在西瓜數據集3.0上的運行效果
"""
import numpy as np
def Relief(X,Y):
# Relef算法
# 輸入:
# X:樣本數據,列表類型,允許連續型和離散型數據,維度為樣本數×特征數
# Y: 類標記,列表或者numpy.array類型,這里僅考慮2分類情況
# 輸出:
# r:計算出的相關統計量,對應於教材上的(11,3)式,長度為特征數
m=len(X) #樣本數
n=len(X[0]) #特征數
Y=np.asarray(Y) #轉換為numpy.array類型
types=np.array([type(xj) for xj in X[0]]) #各個特征的類型
d_index=np.where(types==str)[0] #離散屬性序號
c_index=np.where((types==int)|(types==float))[0] #連續屬性序號
Xd=np.array([[x[i] for i in d_index] for x in X]) #X之離散屬性部分
Xc=np.array([[x[i] for i in c_index] for x in X]) #X之連續屬性部分
Xc=(Xc-Xc.min(0))/(Xc.max(0)-Xc.min(0)) #連續值部分規范化到[0,1]區間
r=np.zeros(n) #存儲相關統計量
for i in range(m):
# 計算xi與所有樣本的距離平方(等號右邊兩項分別為離散和連續特征貢獻)
dist2=(Xd[i,:]!=Xd).sum(1)+((Xc[i,:]-Xc)**2).sum(1)
# 同類最近鄰
dist2_nh=dist2.copy() #拷貝距離副本
dist2_nh[i]=max(dist2)+1 #自身距離本為0,將其強制設為較大值
dist2_nh[Y!=Y[i]]=max(dist2)+1 #異類距離也設為較大值
nh_index=np.argmin(dist2_nh) #同類中最近鄰樣本的索引號
r[d_index]-=Xd[i]!=Xd[nh_index] #r之離散屬性部分
r[c_index]-=(Xc[i]-Xc[nh_index])**2 #r之連續屬性部分
# 異類最近鄰
dist2_nm=dist2.copy() #拷貝距離副本
dist2_nm[Y==Y[i]]=max(dist2)+1 #同類距離設為較大值
nm_index=np.argmin(dist2_nm) #異類中最近鄰樣本的索引號
r[d_index]+=Xd[i]!=Xd[nm_index] #r之離散屬性部分
r[c_index]+=(Xc[i]-Xc[nm_index])**2 #r之連續屬性部分
return r
#====================================
# 主程序
#====================================
# 表4.3 西瓜數據集3.0
FeatureName=['色澤','根蒂','敲聲','紋理','臍部','觸感','密度','含糖率']
X=[['青綠','蜷縮','濁響','清晰','凹陷','硬滑',0.697,0.460],
['烏黑','蜷縮','沉悶','清晰','凹陷','硬滑',0.774,0.376],
['烏黑','蜷縮','濁響','清晰','凹陷','硬滑',0.634,0.264],
['青綠','蜷縮','沉悶','清晰','凹陷','硬滑',0.608,0.318],
['淺白','蜷縮','濁響','清晰','凹陷','硬滑',0.556,0.215],
['青綠','稍蜷','濁響','清晰','稍凹','軟粘',0.403,0.237],
['烏黑','稍蜷','濁響','稍糊','稍凹','軟粘',0.481,0.149],
['烏黑','稍蜷','濁響','清晰','稍凹','硬滑',0.437,0.211],
['烏黑','稍蜷','沉悶','稍糊','稍凹','硬滑',0.666,0.091],
['青綠','硬挺','清脆','清晰','平坦','軟粘',0.243,0.267],
['淺白','硬挺','清脆','模糊','平坦','硬滑',0.245,0.057],
['淺白','蜷縮','濁響','模糊','平坦','軟粘',0.343,0.099],
['青綠','稍蜷','濁響','稍糊','凹陷','硬滑',0.639,0.161],
['淺白','稍蜷','沉悶','稍糊','凹陷','硬滑',0.657,0.198],
['烏黑','稍蜷','濁響','清晰','稍凹','軟粘',0.360,0.370],
['淺白','蜷縮','濁響','模糊','平坦','硬滑',0.593,0.042],
['青綠','蜷縮','沉悶','稍糊','稍凹','硬滑',0.719,0.103]]
Y=[1]*8+[0]*9
# 計算相關統計量
r=Relief(X,Y)
order=np.argsort(r)[::-1]
print('===================相關統計量排序結果===================')
for i in order:
print(FeatureName[i]+':'+str(r[i]),end='; ')