凸函数和jensen不等式


1 凸函数的定义

1.1 一元凸函数与凹函数

    对于一元函数\(f(x)\),若满足\(f(x)\)\([a,b]\)上连续,且对于任意\(x_1\)\(x_2\),恒有:

\[f(\frac {x_1+x_2}{2})\ge\frac {f(x_1)+f(x_2)}2 \]

    则称\(f(x)\)\([a,b]\)上是向上凸的,简称上凸,此时\(f(x)\)\([a,b]\)凹函数,如图1-3-3;若恒有:

\[f(\frac {x_1+x_2}{2})\le(\frac {f(x_1)+f(x_2)}2) \]

    则称\(f(x)\)\([a,b]\)上是向下凸的,简称下凸,此时\(f(x)\)\([a,b]\)凸函数,如图1-3-4:

一元凹凸函数图像

一元凹凸函数图像(左凹右凸)

1.2 严格一点的凸函数的定义

    凸函数可利用凸集和上图的概念定义。\(f\)的上图可理解为函数\(f(x)\)图像以上的区域构成的集合(暂未找到上图定义,此处为个人理解)。集合\(C\)被称为凸集,如果\(C\)中任意两点间的线段仍然在\(C\)中,即对于任意的\(x_1,x_2 \subseteq C\),\(0 \le \theta \le1\),都有:\(\theta x_1+(1-\theta)x_2 \subseteq C\)

    凸函数定义:如果函数\(f:\Omega \to R\)\(\Omega \subset R^n\)的上图是凸集,那么函数\(f\)是集合\(\Omega\)上的凸函数。

2 凸函数的性质

2.1 凸函数的充要条件

    对于定义在凸集\(\Omega \subset R^n\)上的函数\(f:\Omega \to R\)\(f\)是凸函数当且仅当对于任意\(x,y \in \Omega\)和任意\(\alpha \in (0,1)\),都有

\[f(\alpha x + (1-\alpha)y)\le \alpha f(x)+(1-\alpha) f(y) \]

2.2 凸函数的线性性质

    假设函数\(f,f_1,f_2\)都是凸函数,那么,对于\(\forall a \ge 0\),函数\(af\)也是凸函数;\(f_1+f_2\)也是凸函数。

2.3 严格凸函数

    对于定义在凸集\(\Omega \subset R^n\)上的函数\(f:\Omega \to R\),如果对于任意\(x,y \in \Omega, x \ne y\) 和任意\(\alpha \in (0,1)\),都有

\[f(\alpha x + (1-\alpha)y)\lt \alpha f(x)+(1-\alpha) f(y) \]

    则函数\(f\)\(\Omega\)上的严格凸函数。对于严格凸函数,连接两点\([x^T,f(x)]^T\)\([y^T,f(y)]^T\)的线段上的所有点(不包括两个端点),都严格位于函数\(f\)的图像上方。

2.4 其他性质

    凸优化问题中,局部最小点就是全局最小点。

3 凸函数的判定

3.1 一元凸函数判定

    对于一元函数\(f(x)\),通过其二阶导数\(f''(x)\)的符号来判断。若在\((a,b)\)内存在二阶导数\(f''(x)\),且在\((a,b)\)\(f''(x) \ge0\)恒成立(等号只在有限个点上成立),则称\(f(x)\)\((a,b)\)上是凸函数。

3.2 多元凸函数的判定

    对于多元函数\(f(X)\),通过其\(Hessian\)矩阵的正定性来判断。若函数\(f(X)\)的二阶偏导数在整个域中是存在并且连续的,且其\(Hessian\)矩阵\(H(f)\)是正定(即其为满秩矩阵,且全部特征值大于0)的,则\(f(X)\)是域上的凸函数。

    \(Hessian\)矩阵:函数\(f:R^n \to R\) 在某个域上的二阶导数存在且连续,则函数\(f(x_1,x_2,...,x_n)\)\(Hessian\)矩阵为:

4 凸函数性质的应用:jensen不等式

    如果\(f\)是凸函数,\(X\)是随机变量,那么\(f(E(X)) \le E(f(X))\),即为jenson不等式的一般表述。此外,还有另一种表述:假设\(\omega_1,\omega_2,...,\omega_n\)为权重且满足:\(\omega_j \ge 0\),\(\sum_{j=1}^n \omega_j =1\),对于任意\(x\)有:

\[f(\omega_1x_1+\omega_2x_2+...+\omega_nx_n) \le \omega_1f(x_1)+\omega_2f(x_2)+...+\omega_nf(x_n) \]

    反之,若\(f\)是域上的凹函数,则:

\[f(\omega_1x_1+\omega_2x_2+...+\omega_nx_n) \ge \omega_1f(x_1)+\omega_2f(x_2)+...+\omega_nf(x_n) \]

    若\(f(x)=ln(x)\),则可知\(f\)为凹函数,若令权重相等均为\(1/n\),则:

\[ln(\frac1 n \sum_{i=1}^n x_i) \ge \frac 1 n\sum_{i=1}^nln(x_i) \]

    两边进行取幂运算可得算术平均数和几何平均数大小关系:

\[\frac {x_1+x_2+...+x_n} n \ge \sqrt[n]{x_1x_2...x_n} \]

    当且仅当\(x_1=x_2=...=x_n\)时等号成立。

5 参考资源:


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM