在众多的机器学习模型中,线性代数的身影无处不在,当然,我们也会时常碰到线性代数中的正定矩阵和半正定矩阵。例如,多元正态分布的协方差矩阵要求是半正定的。
--------------×--------------×--------------
1. 基本的定义
正定和半正定这两个词的英文分别是positive definite和positive semi-definite,其中,definite是一个形容词,表示“明确的、确定的”等意思。
初学线性代数的读者可能会被这两个词“唬住”,但正定矩阵和半正定矩阵的定义实际上是很简单的 (不考虑复数构成的矩阵):
【定义1】给定一个大小为的实对称矩阵
,若对于任意长度为
的非零向量
,有
恒成立,则矩阵
是一个正定矩阵。
【例1】单位矩阵
是否是正定矩阵?
解:设向量
为非零向量,则
![[公式]](/image/aHR0cHM6Ly93d3cuemhpaHUuY29tL2VxdWF0aW9uP3RleD0lNUNib2xkc3ltYm9sJTdCeCU3RCU1RVRJJTVDYm9sZHN5bWJvbCU3QnglN0QlM0QlNUNib2xkc3ltYm9sJTdCeCU3RCU1RVQlNUNib2xkc3ltYm9sJTdCeCU3RCUzRHhfMSU1RTIlMkJ4XzIlNUUy.png)
由于
,故
恒成立,即单位矩阵
是正定矩阵。
单位矩阵是正定矩阵 (positive definite)。
【简单证明】对于任意单位矩阵
而言,给定任意非零向量
,恒有
![[公式]](/image/aHR0cHM6Ly93d3cuemhpaHUuY29tL2VxdWF0aW9uP3RleD0lNUNib2xkc3ltYm9sJTdCeCU3RCU1RVRJJTVDYm9sZHN5bWJvbCU3QnglN0QlM0QlNUNib2xkc3ltYm9sJTdCeCU3RCU1RVQlNUNib2xkc3ltYm9sJTdCeCU3RA==.png)
![[公式]](/image/aHR0cHM6Ly93d3cuemhpaHUuY29tL2VxdWF0aW9uP3RleD0lM0R4XzElNUUyJTJCeF8yJTVFMiUyQiU1Q2Nkb3RzJTJCeF9uJTVFMiUzRTA=.png)
【例2】 实对称矩阵
是否是正定矩阵?
解:设向量
为非零向量,则
![[公式]](/image/aHR0cHM6Ly93d3cuemhpaHUuY29tL2VxdWF0aW9uP3RleD0lNUNib2xkc3ltYm9sJTdCeCU3RCU1RVRBJTVDYm9sZHN5bWJvbCU3QnglN0QlM0QrJTVDbGVmdCU1QiU1Q2JlZ2luJTdCYXJyYXklN0QlN0JjY2MlN0QlMjgyeF8xLXhfMiUyOSslMjYrJTI4LXhfMSUyQjJ4XzIteF8zJTI5KyUyNisteF8yJTJCMnhfMyU1Q2VuZCU3QmFycmF5JTdEJTVDcmlnaHQlNUQrJTVDbGVmdCU1QiU1Q2JlZ2luJTdCYXJyYXklN0QlN0JjJTdEeF8xKyU1QyU1Qyt4XzIrJTVDJTVDK3hfMyslNUMlNUMrJTVDZW5kJTdCYXJyYXklN0QlNUNyaWdodCU1RA==.png)
![[公式]](/image/aHR0cHM6Ly93d3cuemhpaHUuY29tL2VxdWF0aW9uP3RleD0lM0R4XzElNUUyJTJCJTI4eF8xLXhfMiUyOSU1RTIlMkIlMjh4XzIteF8zJTI5JTVFMiUyQnhfMyU1RTIlM0Uw.png)
因此,矩阵
是正定矩阵。
【定义2】给定一个大小为的实对称矩阵
,若对于任意长度为
的向量
,有
恒成立,则矩阵
是一个半正定矩阵。
根据正定矩阵和半正定矩阵的定义,我们也会发现:半正定矩阵包括了正定矩阵,与非负实数 (non-negative real number)和正实数 (positive real number)之间的关系很像。
图1 正实数与负实数,图片来源于https://en.wikipedia.org/wiki/Real_number
2. 从二次函数到正定/半正定矩阵
在初中数学中,我们学习了二次函数
,该函数的曲线会经过坐标原点,当参数
时,曲线的“开口”向上,参数
时,曲线的“开口”向下。
以
为例,曲线如下:
图2 二次函数曲线
实际上,我们可以将
视作
的多维表达式。
当我们希望
对于任意向量
都恒成立,就要求矩阵
是一个半正定矩阵,对应于二次函数,
需要使得
.
另外,在
中,我们还知道:若
,则对于任意
,有
恒成立。
这在
也有契合之处,当矩阵
是正定矩阵时,对于任意
,
恒成立。
3. 正定矩阵和半正定矩阵的直观解释
若给定任意一个正定矩阵和一个非零向量
,则两者相乘得到的向量
与向量
的夹角恒小于
. (等价于:
.)
【例3】给定向量
,对于单位矩阵
,则
![[公式]](/image/aHR0cHM6Ly93d3cuemhpaHUuY29tL2VxdWF0aW9uP3RleD0lNUNib2xkc3ltYm9sJTdCeSU3RCUzREklNUNib2xkc3ltYm9sJTdCeCU3RCUzRCU1Q2JvbGRzeW1ib2wlN0J4JTdEJTNEJTVDbGVmdCU1QiU1Q2JlZ2luJTdCYXJyYXklN0QlN0JjJTdEKzIrJTVDJTVDKzErJTVDJTVDKyU1Q2VuZCU3QmFycmF5JTdEKyU1Q3JpZ2h0JTVE.png)
向量
之间的夹角为
![[公式]](/image/aHR0cHM6Ly93d3cuemhpaHUuY29tL2VxdWF0aW9uP3RleD0lNUNjb3MlNUNsZWZ0JTNDJTVDYm9sZHN5bWJvbCU3QnglN0QlMkMlNUNib2xkc3ltYm9sJTdCeSU3RCU1Q3JpZ2h0JTNFJTNEJTVDZnJhYyU3QiU1Q2JvbGRzeW1ib2wlN0J4JTdEJTVFVCU1Q2JvbGRzeW1ib2wlN0J5JTdEJTdEJTdCJTdDJTdDJTVDYm9sZHN5bWJvbCU3QnglN0QlN0MlN0MlNUNjZG90JTdDJTdDJTVDYm9sZHN5bWJvbCU3QnklN0QlN0MlN0MlN0Q=.png)
![[公式]](/image/aHR0cHM6Ly93d3cuemhpaHUuY29tL2VxdWF0aW9uP3RleD0lM0QlNUNmcmFjJTdCMiU1Q3RpbWVzKzIlMkIxJTVDdGltZXMrMSU3RCU3QiU1Q3NxcnQlN0IyJTVFMiUyQjElNUUyJTdEJTVDY2RvdCU1Q3NxcnQlN0IyJTVFMiUyQjElNUUyJTdEJTdE.png)
![[公式]](/image/aHR0cHM6Ly93d3cuemhpaHUuY29tL2VxdWF0aW9uP3RleD0lM0Qx.png)
即两个向量之间的夹角为0°.
【例4】给定向量
,对于实对称矩阵
,则
![[公式]](/image/aHR0cHM6Ly93d3cuemhpaHUuY29tL2VxdWF0aW9uP3RleD0lNUNib2xkc3ltYm9sJTdCeSU3RCUzREElNUNib2xkc3ltYm9sJTdCeCU3RCUzRCslNUNsZWZ0JTVCKyU1Q2JlZ2luJTdCYXJyYXklN0QlN0JjJTdEKzArJTVDJTVDKzIrJTVDJTVDKzArJTVDJTVDKyU1Q2VuZCU3QmFycmF5JTdEKyU1Q3JpZ2h0JTVE.png)
向量
之间的夹角为
![[公式]](/image/aHR0cHM6Ly93d3cuemhpaHUuY29tL2VxdWF0aW9uP3RleD0lNUNjb3MlNUNsZWZ0JTNDJTVDYm9sZHN5bWJvbCU3QnglN0QlMkMlNUNib2xkc3ltYm9sJTdCeSU3RCU1Q3JpZ2h0JTNFJTNEJTVDZnJhYyU3QiU1Q2JvbGRzeW1ib2wlN0J4JTdEJTVFVCU1Q2JvbGRzeW1ib2wlN0J5JTdEJTdEJTdCJTdDJTdDJTVDYm9sZHN5bWJvbCU3QnglN0QlN0MlN0MlNUNjZG90JTdDJTdDJTVDYm9sZHN5bWJvbCU3QnklN0QlN0MlN0MlN0QlM0QlNUNmcmFjJTdCJTVDc3FydCU3QjYlN0QlN0QlN0IzJTdE.png)
即两个向量之间的夹角小于
.
若给定任意一个正定矩阵和一个向量
,则两者相乘得到的向量
与向量
的夹角恒小于或等于
. (等价于:
.)
4. 为什么协方差矩阵要是半正定的?
在概率论与数理统计中,我们都学习的协方差矩阵的定义:
对于任意多元随机变量,协方差矩阵为
![]()
现给定任意一个向量
,则
![[公式]](/image/aHR0cHM6Ly93d3cuemhpaHUuY29tL2VxdWF0aW9uP3RleD0lNUNib2xkc3ltYm9sJTdCeCU3RCU1RVRDJTVDYm9sZHN5bWJvbCU3QnglN0QlM0QlNUNib2xkc3ltYm9sJTdCeCU3RCU1RVQlNUNtYXRoYmIlN0JFJTdEJTVDbGVmdCU1QiUyOCU1Q2JvbGRzeW1ib2wlN0J0JTdELSU1Q2JhciU3QiU1Q2JvbGRzeW1ib2wlN0J0JTdEJTdEJTI5JTI4JTVDYm9sZHN5bWJvbCU3QnQlN0QtJTVDYmFyJTdCJTVDYm9sZHN5bWJvbCU3QnQlN0QlN0QlMjklNUVUJTVDcmlnaHQlNUQlNUNib2xkc3ltYm9sJTdCeCU3RA==.png)
![[公式]](/image/aHR0cHM6Ly93d3cuemhpaHUuY29tL2VxdWF0aW9uP3RleD0lM0QlNUNtYXRoYmIlN0JFJTdEJTVDbGVmdCU1QiU1Q2JvbGRzeW1ib2wlN0J4JTdEJTVFVCUyOCU1Q2JvbGRzeW1ib2wlN0J0JTdELSU1Q2JhciU3QiU1Q2JvbGRzeW1ib2wlN0J0JTdEJTdEJTI5JTI4JTVDYm9sZHN5bWJvbCU3QnQlN0QtJTVDYmFyJTdCJTVDYm9sZHN5bWJvbCU3QnQlN0QlN0QlMjklNUVUJTVDYm9sZHN5bWJvbCU3QnglN0QlNUNyaWdodCU1RA==.png)
![[公式]](/image/aHR0cHM6Ly93d3cuemhpaHUuY29tL2VxdWF0aW9uP3RleD0lM0QlNUNtYXRoYmIlN0JFJTdEJTI4cyU1RTIlMjklM0QlNUNzaWdtYV8lN0JzJTdEJTVFMg==.png)
其中,
![[公式]](/image/aHR0cHM6Ly93d3cuemhpaHUuY29tL2VxdWF0aW9uP3RleD0lNUNzaWdtYV9zJTNEJTVDYm9sZHN5bWJvbCU3QnglN0QlNUVUJTI4JTVDYm9sZHN5bWJvbCU3QnQlN0QtJTVDYmFyJTdCJTVDYm9sZHN5bWJvbCU3QnQlN0QlN0QlMjklM0QlMjglNUNib2xkc3ltYm9sJTdCdCU3RC0lNUNiYXIlN0IlNUNib2xkc3ltYm9sJTdCdCU3RCU3RCUyOSU1RVQlNUNib2xkc3ltYm9sJTdCeCU3RA==.png)
由于
,因此,
,协方差矩阵
是半正定的。

的实对称矩阵
的非零向量
恒成立,则矩阵
恒成立,则矩阵
和一个非零向量
与向量
,协方差矩阵为