2 过滤式选择
过滤式选择和后续学习器无关,首先用特征选择过程对初始特征进行过滤,然后用过滤后的特征来训练模型。
Relief:用一个“相关统计量”的向量来度量特征的重要性,每个分量对应一个特征。 对特征子集的重要性评估为相关统计分量之和。
2.1 “相关统计量”的确定
在给定训练集{(x1,y1),(x2,y2),....,(xm,ym)},对于每个xi,找到其同类最邻近xi,nh(猜中近邻near-hit),再从xi的异类样本中寻找最近邻xi,nm(猜错近邻near-miss)。故此相关统计量对于属性j而言的分量是
对于离散值而言,diff不同条件成立取1,相同取0。若为连续值,则规范化到【0,1】区间,然后进行做差。(和距离度量学习有些类似)
上面这一式子的解释为,猜中近邻距离小于猜错近邻,则说明该属性的分类效果好,增大对应的统计分量,故此为正数。
2.2 数据集
对于“相关统计量”而言,只需要在数据集上采样而不必在整个数据集上进行估计,
上述的Relief只能针对二分类问题。对于多分类问题而言提出了Relief—F,首先在本类中找到最近猜中近邻,然后在其他各类中都找猜错近邻。用概率(pl各类样本占整个数据集D的比例)进行累加,具体公式如下
2.3 最终选择
可以根据“相关统计量”,可以选择k个时就依次从高到低选择相应的个数,或者是可以选择“相关统计量”大于某一阈值的特征。
11.3 包裹式选择
包裹式特征选择直接把最终将要使用的学习器性能作为特征子集的评价标准,换而言之选择出了最有利于学习器性能发挥量身定做的特征子集。包裹式特征选择比过滤式特征选择更好,但由于需要在特征选择的过程中多次训练学习器,故计算开销较大。
LVW(Las Vegas Wrapper)使用随机策略来进行子集搜索。以最终分类器的误差为特征子集的评价标准。交叉验证的方法来估计学习器的误差,不断的随机选择特征子集进行子集更新,直到停止条件满足不再进行子集更新。
11.4嵌入式选择与L1正则化
过滤式和包裹式特征选择中,特征选择过程与学习器训练过程有明显的分别。对于嵌入式特征选择而言,特征选择和学习器训练过程融为一体,在同一个优化过程中完成,在学习器训练过程中自动的进行了特征选择。