網上有一些向量求導的總結,把20多種情況一一考慮,很是麻煩,本文希望找出向量求導的基本法則。
向量求導與標量求導法則不同的是,向量的求導還要注意結果的排法問題。注意排法是因為當一個目標函數是多個成分相加時,如果不注意排法可能導致有些結果是行,有些是列,無法繼續進行運算。我總結的向量求導的基本推導准則是(以f(x)對向量求導為例):
1)先對f(x)求向量分量的導數,也就是標量的導數,該導數可能是標量,也可能是向量;
2)如果第一步求導結果為標量,直接將結果排列成x的形狀(本例為列);如果第一步求出的結果是向量,在按照x排列結果時:
2.1)如果求導結果與x形狀相同,則將結果取轉置排成矩陣;
2.3)如果求導結果與x形狀不同,則直接將結果排成矩陣。
看兩個例子:以下約定向量x是列向量,是矩陣,
是A的轉置。
例1
1)求分量導數
2.1)排列:求導結果與x形狀相同,將取轉置按列排好,即A的轉置:
例2
1)
2)上述結果是標量,直接排成一列,整理一下得:
有了基本求導規則,就可以求一些更復雜基本函數的導數。對於矩陣的行列式,向量的叉積,矩陣的逆這些更復雜的導數的求法以及向量的鏈式求導規則,下篇再表。
如果變量是矩陣,上述法則是很容易推廣到矩陣上去的:矩陣是由向量組成的,先利用上述向量的求導法則求導,再對結果進行排列,排列的討論與2)非常類似。