1.definition
Definite matrix:
In mathematics, a symmetric matrix M with real entries is positive-definite if the real number $z^TMz $ is positive for every nonzero real column vector z, where \(z^T\) is the transpose of z. More generally, a Hermitian matrix (that is, a complex matrix equal to its conjugate transpose) is positive-definite if the real number \(z^*Mz\) is positive for every nonzero complex column vector z.
Positive semi-definite matrices
Positive semi-definite matrices are defined similarly, except that the scalars \(z^TMz\) and \(z^*Mz\) are required to be positive or zero (that is nonnegative). Negative-definite and negative semi-definite matrices are defined analogously. A matrix that is not positive semi-definite and not negative semi-definite is sometimes called indefinite.
2.从二次型到正定/半正定矩阵
我们发现,所有的二次齐次式都可以表示为矩阵的形式,例如:
![[公式]](/image/aHR0cHM6Ly93d3cuemhpaHUuY29tL2VxdWF0aW9uP3RleD1mJTNEeF8lN0IxJTdEJTVFMiUyQjJ4XyU3QjElN0R4XyU3QjIlN0QlMkI0eF8lN0IyJTdEJTVFMiUyQjZ4XyU3QjIlN0R4XyU3QjMlN0QlMkI0eF8lN0IzJTdEJTVFMg==.png)
就可以表示为:
![[公式]](/image/aHR0cHM6Ly93d3cuemhpaHUuY29tL2VxdWF0aW9uP3RleD0lNUNsZWZ0JTVCKyU1Q2JlZ2luJTdCYXJyYXklN0QlN0JyJTdEKyt4XyU3QjElN0QlMjYreF8lN0IyJTdEJTI2K3hfJTdCMyU3RCslNUNlbmQlN0JhcnJheSU3RCslNUNyaWdodCU1RCU1Q2xlZnQlNUIrJTVDYmVnaW4lN0JhcnJheSU3RCU3QnIlN0QrMSUyNjElMjYwJTVDJTVDMSUyNjQlMjYzJTVDJTVDMCUyNjMlMjY0KyU1Q2VuZCU3QmFycmF5JTdEKyU1Q3JpZ2h0JTVEJTVDbGVmdCU1QislNUNiZWdpbiU3QmFycmF5JTdEJTdCciU3RCsreF8lN0IxJTdEJTVDJTVDK3hfJTdCMiU3RCU1QyU1Qyt4XyU3QjMlN0QrJTVDZW5kJTdCYXJyYXklN0QrJTVDcmlnaHQlNUQlM0RYJTI3QSU1QytY.png)
显然,这个表示是唯一的:每一个二次型都唯一对应一个对称矩阵
,反之亦如此. 无论是这个二次齐次式,还是代表它的矩阵,我们都称之为二次型,因为他们指向的是同一件事.
以最简单的二次函数\(y=ax^2\)为例:
实际上,我们可以将
视作
的多维表达式。
当我们希望
对于任意向量
都恒成立,就要求矩阵
是一个半正定矩阵,对应于二次函数,
需要使得
.
另外,在
中,我们还知道:若
,则对于任意
,有
恒成立。
这在
也有契合之处,当矩阵
是正定矩阵时,对于任意
,
恒成立。
3.正定矩阵和半正定矩阵的直观解释
若给定任意一个正定矩阵
和一个非零向量
,则两者相乘得到的向量
与向量
的夹角恒小于
. (等价于:
.)
4.协方差矩阵与半正定
设

为n维随机变量,称矩阵

为x的协方差矩阵,其中

即
![[公式]](/image/aHR0cHM6Ly93d3cuemhpaHUuY29tL2VxdWF0aW9uP3RleD1DJTNEJTVDbWF0aGJiJTdCRSU3RCU1Q2xlZnQlNUIlMjglNUNib2xkc3ltYm9sJTdCdCU3RC0lNUNiYXIlN0IlNUNib2xkc3ltYm9sJTdCdCU3RCU3RCUyOSUyOCU1Q2JvbGRzeW1ib2wlN0J0JTdELSU1Q2JhciU3QiU1Q2JvbGRzeW1ib2wlN0J0JTdEJTdEJTI5JTVFVCU1Q3JpZ2h0JTVE.png)
现给定任意一个向量
,则
![[公式]](/image/aHR0cHM6Ly93d3cuemhpaHUuY29tL2VxdWF0aW9uP3RleD0lNUNib2xkc3ltYm9sJTdCeCU3RCU1RVRDJTVDYm9sZHN5bWJvbCU3QnglN0QlM0QlNUNib2xkc3ltYm9sJTdCeCU3RCU1RVQlNUNtYXRoYmIlN0JFJTdEJTVDbGVmdCU1QiUyOCU1Q2JvbGRzeW1ib2wlN0J0JTdELSU1Q2JhciU3QiU1Q2JvbGRzeW1ib2wlN0J0JTdEJTdEJTI5JTI4JTVDYm9sZHN5bWJvbCU3QnQlN0QtJTVDYmFyJTdCJTVDYm9sZHN5bWJvbCU3QnQlN0QlN0QlMjklNUVUJTVDcmlnaHQlNUQlNUNib2xkc3ltYm9sJTdCeCU3RA==.png)
![[公式]](/image/aHR0cHM6Ly93d3cuemhpaHUuY29tL2VxdWF0aW9uP3RleD0lM0QlNUNtYXRoYmIlN0JFJTdEJTVDbGVmdCU1QiU1Q2JvbGRzeW1ib2wlN0J4JTdEJTVFVCUyOCU1Q2JvbGRzeW1ib2wlN0J0JTdELSU1Q2JhciU3QiU1Q2JvbGRzeW1ib2wlN0J0JTdEJTdEJTI5JTI4JTVDYm9sZHN5bWJvbCU3QnQlN0QtJTVDYmFyJTdCJTVDYm9sZHN5bWJvbCU3QnQlN0QlN0QlMjklNUVUJTVDYm9sZHN5bWJvbCU3QnglN0QlNUNyaWdodCU1RA==.png)
![[公式]](/image/aHR0cHM6Ly93d3cuemhpaHUuY29tL2VxdWF0aW9uP3RleD0lM0QlNUNtYXRoYmIlN0JFJTdEJTI4cyU1RTIlMjklM0QlNUNzaWdtYV8lN0JzJTdEJTVFMg==.png)
其中,
![[公式]](/image/aHR0cHM6Ly93d3cuemhpaHUuY29tL2VxdWF0aW9uP3RleD0lNUNzaWdtYV9zJTNEJTVDYm9sZHN5bWJvbCU3QnglN0QlNUVUJTI4JTVDYm9sZHN5bWJvbCU3QnQlN0QtJTVDYmFyJTdCJTVDYm9sZHN5bWJvbCU3QnQlN0QlN0QlMjklM0QlMjglNUNib2xkc3ltYm9sJTdCdCU3RC0lNUNiYXIlN0IlNUNib2xkc3ltYm9sJTdCdCU3RCU3RCUyOSU1RVQlNUNib2xkc3ltYm9sJTdCeCU3RA==.png)
由于
,因此,
,协方差矩阵
是半正定的。
5.马氏距离
马氏距离是正定矩阵的一种衍生物,和协方差矩阵一样,定义如下:
单个数据点的马氏距离

数据点x, y之间的马氏距离

其中Σ是多维随机变量的协方差矩阵,μ为样本均值,如果协方差矩阵是单位向量,也就是各维度独立同分布,马氏距离就变成了欧氏距离。
那么马氏距离就能能干什么?它比欧氏距离好在哪里?举几个栗子
欧式距离近就一定相似?
先举个比较常用的例子,身高和体重,这两个变量拥有不同的单位标准,也就是有不同的scale。比如身高用毫米计算,而体重用千克计算,显然差10mm的身高与差10kg的体重是完全不同的。但在普通的欧氏距离中,这将会算作相同的差距。
归一化后欧氏距离近就一定相似?
当然我们可以先做归一化来消除这种维度间scale不同的问题,但是样本分布也会影响分类
举个一维的栗子,现在有两个类别,统一单位,第一个类别均值为0,方差为0.1,第二个类别均值为5,方差为5。那么一个值为2的点属于第一类的概率大还是第二类的概率大?距离上说应该是第一类,但是直觉上显然是第二类,因为第一类不太可能到达2这个位置。
所以,在一个方差较小的维度下很小的差别就有可能成为离群点。就像下图一样,A与B相对于原点的距离是相同的。但是由于样本总体沿着横轴分布,所以B点更有可能是这个样本中的点,而A则更有可能是离群点。

算上维度的方差就够了?
还有一个问题——如果维度间不独立同分布,样本点一定与欧氏距离近的样本点同类的概率更大吗?

可以看到样本基本服从f(x) = x的线性分布,A与B相对于原点的距离依旧相等,显然A更像是一个离群点
即使数据已经经过了标准化,也不会改变AB与原点间距离大小的相互关系。所以要本质上解决这个问题,就要针对主成分分析中的主成分来进行标准化。
马氏距离的几何意义
上面搞懂了,马氏距离就好理解了,只需要将变量按照主成分进行旋转,让维度间相互独立,然后进行标准化,让维度同分布就OK了
由主成分分析可知,由于主成分就是特征向量方向,每个方向的方差就是对应的特征值,所以只需要按照特征向量的方向旋转,然后缩放特征值倍就可以了,可以得到以下的结果:

离群点就被成功分离,这时候的欧式距离就是马氏距离。
