數學基礎_七月算法5月深度學習班第1次課程筆記


 
  desc
outline
微積分:
· Taylor 層層展開,看極值
· 標量求導 化成 矩陣求導,用新的 公式理論
· # hessian 與正定性 的提出
 
概率:
· 中心極限定理,N 個 any 分布累積和 就是 正態分布
 
矩陣:
· Ax = λx 的幾何意義 是旋轉與伸縮 一個響亮
· PCA 的本質就是 對協方差矩陣的對角化
· # 什么矩陣能對角化,如何判斷正定性
 
凸優化
· 待約束的,使用KKT 得到 必要解 用 是否激活的角度 大幅 化簡KKT
中心極限定理
Xi 服從是任意一種分布,方差是σ2,均值是μ,Xi 之間獨立同分布,那么:
Y = (ΣXi -nμ)/sqrt(n)·σ 服從標准正態分布
這是在創造一個新的 統計量,使得你陌生。
但是如果整理一下,說明按照程博士說的
ΣXi 服從的是 N(nμ, n·σ2)
 
中國數學的高等教育一團糟:
· 中心極限定理
· Ax = λx
· Taylor 展開式 說明極值
· AB = C 其實是在維度轉換
· Ax = b 其實是方程的 列表示法  # 方程的行視圖是平面交點,列視圖是矩陣表示
等等就是擺在那里,但是就是 不好好給你說清楚
學好數學的方式
思考怎么用
也就是 它產生、出現的 需求
 
思考方式【觀點】
把因素之間視為相互獨立,一一去得出結論,這是一種勇敢的行為
計算機的擅長 說計算機擅長計算,但是這個不夠細致,擅長的是計算中的迭代,這一種計算而已
SGD中的α
1. 固定
2. adadelta
3. 深度梯度下降,求導而的
4. 二分法 確定 α
   # α取一個極大值,如果 cost = f(x + αd) 是在降低,那么ok,否則就是 α = 0.5·α 的
   # 相當於 α 是一個搜索的過程,這樣的話 一開始的 α是 可以取大些的,后面的α也可以取的小些
高斯分布
密度函數是 凹函數
 
據說:給定了 均值和方差,高斯分布是信息熵最大的密度函數
-Σp·logp
p~N(μ,σ2)
distribution = argmax_dis ( the collection of distribution with 均值μ,方差σ2 )
遍歷一個遍,試了下,可能是最大的,比如 也許可以是 泊松分布
當然需要證明,因為: 分布有無窮種
矩陣求導
多元變量最好用 矩陣表示,然后 用矩陣求導 不易出錯
高維的 寫成矩陣就是要寫成 二次型的形式
主要是 記住幾個公式就可以了
而不是 化為標量 一一求導 
中心極限定理與高斯分布 有關系
中心極限定理  contain 了高斯分布
 
 
 
#### 中心極限定理 的定義假設就是 獨立同分布
任意獨立同分布加起來 就是 高斯分布
這個是 中心極限定理
分別是 any 分布 
4, 5項相加 以后就是 高斯了
4 個 獨立同分布的 泊松 相加 就接近高斯
 
噪聲累積和 為什么一般近似成高斯分布?# 理論依據,中心極限定理
 
 
新的理論
高斯 +  any分布 約等於 高斯,有一個近似誤差
如果x1+x2是獨立的,x1是高斯,x2是任意的分布(比方泊松),兩項加和后是近似高斯分布的(可
證明)。
對稱矩陣
一定可以對角化,不管特征值是否全不相等
而且是 U 對角化,即 特征向量矩陣P 是正交矩陣,即可以被正交矩陣對角化
 
協方差矩陣:一定可以U相似對角化,一定是半正定矩陣
PCA 本質
就是 協方差矩陣的對角化
對角化后的 矩陣是 新空間下的 協方差矩陣
對角化后我們把大的部分保留,小的扔掉
在正定情況下。SVD=ED,但SVD穩定
對SVM 的評價
就是一個 標准的 凸優化問題
。。。。。。。。。。。。。。。。。。。。。。。
不懂 對偶式,why ?????
分析問題用原問題,
解問題時候可以用對偶方法來解。
數學中的指標
相關性就是使用協方差來表示
信息的分散度、離散度 用 方差表示
why 不等式約束激活 這個條件這么重要
不等式約束激活,就從不等式得到了等式
相當於 不等式約束 變成了 等式約束,這就能解了
 
KKT
一階KKT 五個都滿足,是必要條件 ,具體是不是極值還是鞍點,剩下的 用 二階 KKT 看
滿足 二階KKT 就是 極值點
如果有些不滿足 可能是鞍點,需要 四階KKT
具體判別類似於:泰勒展開 與求導  的角度
KKT 的解,類似 一階導數的解
可能 極大,可能極小,可能鞍點
此時要結合 二階KKT 或者 畫圖分析
 
如何解KKT
顯著的feature 就是 能被 大量化簡
看 不等式是否被激活:
1. 不等式約束激活,就從不等式得到了等式
2. 未激活,就意味着 系數是 0
這樣就可以 大幅度化簡 KKT 條件了
以后看模型就可以從這個角度看了
這個優化問題是不是 凸優化問題
如果 判斷是凸優化,那么 直接 內點法就可以了
約束問題
解約束問題是將有約束變為無約束,
如果是等式約束:通過拉格朗日
如果是還有不等式約束:通過KKT
 
若是圖優化問題,那么KKT條件解出來的解,一定是全局最優。
這個是 可證明的,因為沒有鞍點,只要是極值點 就一定是 極小值,沒有懸念是極大值
why SGD 每次選擇的是 梯度的方向
δ 在這里是一個向量,假設在 δ = [δ1, δ2, δ3, δ4 ] 各個維度上元素的長度都是1
即每次每個元素只能走 1 長度,這個是前提
然后   這個是 向量內積,點乘。
xk+δ 想讓 f(xk+δ ) 盡可能大
依據 泰勒展開式 f(xk+δ ) = f(xk) + f'(xk)δ,所以只能最大化這個 f'(xk)·δ
即:δ  要與 f'(xk) 方向一致
 
# 依據泰勒展開式的 等式,利用這個等於號
# 假設前提是,在 每次每個元素只能走 1 長度
怎么使用 Taylor 展開式
【important】
鞍點的特點是一二階導數為0
是否是極值點的判斷方法:
如果是看三階導數,它必須也必須為0
看的是其 四階導數,判斷方法和二階導一樣,如果大於0,為極小值,小於0為極大值
等於0 就要繼續看下去,看 五六階導數
 
也就是 泰勒展開式,可以層層展開,直至可以判斷出是否是 極值


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM