這篇主要記錄學習途中遇到的問題及解決方法。相關學習筆記見https://www.cnblogs.com/guohaoblog/p/12306118.html
1、線性回歸
問題來源:https://pytorch.org/docs/stable/notes/broadcasting.html

答:如果Pytorch張良滿足以下條件,那么就可以廣播
1)每個張量至少有一個維度
2)在遍歷維度大小時,從尾部維度開始遍歷,並且二者維度必須相等,他們其中一個要么是1要么不存在。
對比上面個的倒數一二兩例子。

2、Softmax與分類模型

答:softmax化簡過程中,會減去最大項,避免因運算過大導致上溢出或下溢出,解決辦法可參考筆記https://www.cnblogs.com/guohaoblog/p/12306118.html
拓展:試着比較SVM和softmax的區別和聯系。
3、多層感知機
答:256*256的圖片總共有256*256=65536個元素,與隱層單元元素兩兩相乘,得到65536*1000,然后隱層單元元素分別於輸出類別個數兩兩相乘,即1000*10,最后兩者相加得:
65536*1000 + 1000*10 = 65546000

第二個選項說的欠妥,二者有因果關系?? 從形式上看,tanh確實可以由sigmoid平移伸縮得到,tanh的取值范圍(-1,1),sigmoid的取值范圍是(0,1),與sigmoid的區別是,tanh是0均值的,因此實際應用中tanh會比sigmoid更好。具體使用得看應用場景。第三個問題在於Relu函數也會出現梯度消失問題,沒有哪個激活函數能夠防止梯度消失問題的,只是ReLU能夠有效地改善,工程實踐中用的最多。
4、循環神經網絡基礎

第二項理論上是這樣的,具體時間中還得考慮其他外在因素,比如效率等等,往理論值方向靠近即可。
以上是小組學習過程中遇到的問題,至於代碼層面的,大家基本百度都能解決,細節太多就不羅列啦。歡迎提出意見~
