引言
自然梯度法與牛頓法一樣,是二階梯度優化算法。自然梯度法相比最速梯度下降法的優勢(?)是在模型參數更新后,模型建模的概率分布與之前不會有太大變化。
背景知識
流形$M$是局部歐幾里得的Hausdorff空間。Hausdorff空間意味着對於任意兩點,它們存在不相交的鄰域(也就是說每個點都是相對獨立的。)。局部歐幾里得意味着對於空間中任一點,存在一個可以同胚於實$V\in \mathbb{R}^{n}$空間的鄰域$U$,其中$n$為非負整數。另外,我們將映射$\varphi:U→V$稱為chart,$U$稱為domain。一個集合的charts稱為altas,其中每個chart對應的domain為$U_{\alpha}$,$\bigcup_{\alpha \in N}U_{\alpha}=M$。
定義了流形后,可以定義smooth流形。具體來說,對於$\varphi_{\alpha}$、$\varphi_{\beta}$兩個chart,它們的domain$U_{\alpha}$、$U_{\beta}$存在相交的部分$U_{\alpha \beta}=U_{\alpha}\bigcap U_{\beta}$,$U_{\alpha \beta}$在兩個chart下的像分別為$W_{\alpha \beta}$、$W_{\beta \alpha}$,這兩個像之間的映射$\varphi_{\alpha \beta}=\varphi_{\alpha}\varphi_{\beta}^{-1}$稱為transition map。一個流形是否為smooth流形取決於transition map是否smooth(也就是說通過選取的地圖集對平面粘連的部分做限制。)。

定義了smooth流形后就可以定義黎曼流形。黎曼流形是有黎曼度量的實smooth流形。其中黎曼度量是所有切空間內積的集合。統計模型中唯一不變的黎曼度量為Fisher信息。[1,2]
推導[2,3]
我們考慮密度函數族$D$,它將每個參數$\theta\in \mathbb{R}^{P}$映射為一個密度函數$p(z)$,其中$p:\mathbb{R}^{N}→[0, \infty)$。具體來說,每一個$\theta$都定義了一個密度函數$p_{\theta}(z)=D(\theta)(z)$。如果考慮所有的$\theta$,就得到整個密度函數族,這也是一個泛函流形。
在無窮小的情況下,KL散度表現的就像距離度量。因此$D$也是一個黎曼流形,它的黎曼度量為Fisher信息矩陣$F$,切空間的內積為
$<u,v>=uFv$。
這也就定義了一個局部距離度量。在此黎曼空間下下使用最速下降法即為自然梯度法。具體來說,設$dw=\varepsilon a$,我們希望找到一個$a$最小化
$L(w+dw)=L(w)+\varepsilon \nabla L(w)^{T}a$,
其中
$|a|^{2}=aFa=1$。
使用拉格朗日乘子法就可解得
$a=\frac{1}{2\lambda}F^{-1}\nabla L(w)$。
其中$\lambda$為拉格朗日乘子。
參考文獻
1. Amari, S. (1985). Differential geometrical methods in statistics. Lecture notes in statistics, 28.
2. Amari, S.-I. (1998). Natural gradient works efficiently in learning. Neural Comput., 10(2), 251–276.
3. Pascanu, R., & Bengio, Y. (2013). Revisiting Natural Gradient for Deep Networks. CoRR, abs/1301.3584.
