1.欧式距离
衡量样本间相似性和差异性的方法就是计算两个样本之间的距离。
对于距离,我们最熟悉的莫过于欧式距离,设\(a=(x_1,x_2,\cdots,x_n),b=(y_1,y_2,\cdots,y_n)\),那么\(a\)和\(b\)的欧式距离定义为:
欧式距离有许多缺点,比如会受到距离单位的影响。针对这些影响,在计算距离之前需要对数据进行标准化,假设有\(m\)个样本 依次为\(x^{(1)},x^{(2)},\cdots,x^{(m)}\);每个样本有n个特征:\(x^{(j)}=(x_1^{(j)},x_2^{(j)},\cdots,x_n^{(j)})\)。那么第\(k\)个特征的样本均值,样本标准差可表示为:
对于每个数据可以进行标准化处理:
2.马氏距离
马氏距离(Mahalanobis distance)是由印度统计学家马哈拉诺比斯(P. C. Mahalanobis)提出的,表示点与一个分布之间的距离。它是一种有效的计算两个未知样本集的相似度的方法。与欧氏距离不同的是,它考虑到各种特性之间的联系(例如:一条关于身高的信息会带来一条关于体重的信息,因为两者是有关联的),并且是尺度无关的(scale-invariant),即独立于测量尺度。(百度抄的)
马氏距离的定义:
设总体\(G\)的均值向量为\(\mu\),协方差矩阵为\(\Sigma\),\(X\),\(Y\)为总体中的两个样本。
\(X\)和\(Y\)的距离定义为
\(X\)和总体\(G\)的距离定义为
3.指标距离
y有时不仅需要对样品进行分类,也需要对指标进行分类。衡量指标距离常用到的是相似系数,用\(C_{ij}\)表示指标\(i\)和指标\(j\)的相似系数,\(C_{ij}\)的绝对值趋向于0时,表示指标关系越疏远,\(C_{ij}\)的绝对值趋向于1时,表示指标关系越密切。常用到的相似系数有夹角余弦和相关系数。
(1)夹角余弦
从几何图形中的启发而来,定义为:
(2) 相关系数
相关系数可以理解为数据标准化后的夹角余弦。