深度學習面試題


1.列舉常見的一些范數及其應用場景,如L0,L1,L2,L∞,Frobenius范數

答:p39-p40 ;還有p230-p236有regularization的應用

2.簡單介紹一下貝葉斯概率與頻率派概率,以及在統計中對於真實參數的假設。

答:p55

3.概率密度的萬能近似器

答:p67:3.10上面那一段

4.簡單介紹一下sigmoid,relu,softplus,tanh,RBF及其應用場景

答:sigmoid和softplus在p67頁;全部的在p193-p197

5.Jacobian,Hessian矩陣及其在深度學習中的重要性

答:p86-p92

6.KL散度在信息論中度量的是那個直觀量

答:p74

7.數值計算中的計算上溢與下溢問題,如softmax中的處理方式

答:p80-p81

8.與矩陣的特征值相關聯的條件數(病態條件)指什么,與梯度爆炸與梯度彌散的關系

答:p82;

9.在基於梯度的優化問題中,如何判斷一個梯度為0的零界點為局部極大值/全局極小值還是鞍點,Hessian矩陣的條件數與梯度下降法的關系

10.KTT方法與約束優化問題,活躍約束的定義

答:p93-p95

11.模型容量,表示容量,有效容量,最優容量概念

答:p111;p113;p114;p115

12.正則化中的權重衰減與加入先驗知識在某些條件下的等價性

答:p119;p138

13.高斯分布的廣泛應用的緣由

答:p63-p64

14.最大似然估計中最小化KL散度與最小化分布之間的交叉熵的關系

答:p132

15.在線性回歸問題,具有高斯先驗權重的MAP貝葉斯推斷與權重衰減的關系,與正則化的關系

答:p138-p139

16.稀疏表示,低維表示,獨立表示

答:p147

17.列舉一些無法基於地圖(梯度?)的優化來最小化的代價函數及其具有的特點

答:p155 最頂一段

18.在深度神經網絡中,引入了隱藏層,放棄了訓練問題的凸性,其意義何在

答:p191-192

19.函數在某個區間的飽和與平滑性對基於梯度的學習的影響

答:p160

20.梯度爆炸的一些解決辦法

答:p302

21.MLP的萬能近似性質

答:p198

22.在前饋網絡中,深度與寬度的關系及表示能力的差異

答:p200-p201

23.為什么交叉熵損失可以提高具有sigmoid和softmax輸出的模型的性能,而使用均方誤差損失則會存在很多問題。分段線性隱藏層代替sigmoid的利弊

答:p226;p226

24.表示學習的發展的初衷?並介紹其典型例子:自編碼器

答:p3-p4;p4

25.在做正則化過程中,為什么只對權重做正則懲罰,而不對偏置做權重懲罰

答:p230

26.在深度學習神經網絡中,所有的層中考慮使用相同的權重衰減的利弊

27.正則化過程中,權重衰減與Hessian矩陣中特征值的一些關系,以及與梯度彌散,梯度爆炸的關系

答:p231-234

28.L1/L2正則化與高斯先驗/對數先驗的MAP貝葉斯推斷的關系

答:p234-p237

29.什么是欠約束,為什么大多數的正則化可以使欠約束下的欠定問題在迭代過程中收斂

答:p239

30.為什么考慮在模型訓練時對輸入(隱藏單元/權重)添加方差較小的噪聲,與正則化的關系

答:p240-p243

31.共享參數的概念及在深度學習中的廣泛影響

答:p245;p253

32.Dropout與Bagging集成方法的關系,以及Dropout帶來的意義與其強大的原因

答:p258-p268

33.批量梯度下降法更新過程中,批量的大小與各種更新的穩定性關系

答:p279

34.如何避免深度學習中的病態,鞍點,梯度爆炸,梯度彌散

答:p282-p293

35.SGD以及學習率的選擇方法,帶動量的SGD對於Hessian矩陣病態條件及隨機梯度方差的影響

答:p294;p296-p300

36.初始化權重過程中,權重大小在各種網絡結構中的影響,以及一些初始化的方法;偏置的初始化

答:初始化權重:p301-p305;偏置初始化:p305-p306

37.自適應學習率算法:AdaGrad,RMSProp,Adam等算法的做法

答:AdaGrad:p307; RMSProp:p307-p308; Adam:p308-p309

38.二階近似方法:牛頓法,共軛梯度,BFGS等的做法

答:牛頓法:p310-p313; 共軛梯度:p313-p316; BFGS:p316-p317

39.Hessian的標准化對於高階優化算法的意義

答:p318-p321

40.卷積網絡中的平移等變性的原因,常見的一些卷積形式

答:平移等變性:p338-p339;常見的一些卷積形式:p347-p358

41.pooling的做法的意義

答:p342-p347

42.循環神經網絡常見的一些依賴循環關系,常見的一些輸入輸出,以及對應的應用場景

答:p378-p395

43.seq2seq,gru,lstm等相關的原理

答:seq2seq:p396-p397; gru:p411-p412; lstm:p408-p411

44.采樣在深度學習中的意義

答:p469-p471

45.自編碼器與線性因子模型,PCA,ICA等的關系

答:自編碼器與線性因子模型:p489-p490;PCA:p490-p491;ICA:p491-p493

46.自編碼器在深度學習中的意義,以及一些常見的變形與應用

答:意義:p502-p503; 常見變形:p503-p508;p509-p512; p521-p524應用:p515-p520;p524-p525

47.受限玻爾茲曼機廣泛應用的原因

答:p460:想特別了解的人注意這句話: See Mohamed et al. (2012b) for an analysis of reasons for the success of these models.

48.穩定分布與馬爾可夫鏈

答:p595-p598

49.Gibbs采樣的原理

答:p599

50.配分函數通常難以計算的解決方案

答:p605,p606第一段

51.幾種參數估計的聯系與區別:MLE/MAP/貝葉斯

答:P134-P139

52.半監督的思想以及在深度學習中的應用

答:p541-p546

53.舉例CNN中的channel在不同數據源中的含義

答:p360-p362

54.深度學習在NLP,語音,圖像等領域的應用及常用的一些模型

答:p452-p485

55.word2vec與glove的比較

答:How is GloVe different from word2vec? ; GloVe以及Word2vec能稱為deep learning么?這倆模型的層次其實很淺的 ;//clic.cimec.unitn.it/marco/publications/acl2014/baroni-etal-countpredict-acl2014.pdf 這個問題沒找到答案,我去找了quora和知乎上的相關問題以及quora一個回答提及的論文。 (若有人在書中找到,請批評指正)

56.注意力機制在深度學習的某些場景中為何會被大量使用,其幾種不同的情形

答:p475-p476

57.wide&deep模型中的wide和deep介紹

答:https://arxiv.org/pdf/1606.07792.pdf 此問題答案未在書中找到,為此我去找了原論文,論文圖1有詳細的介紹。 (若有人在書中找到,請批評指正)

58.核回歸與RBF網絡的關系

答:p142

59.LSTM結構推導,為什么比RNN好?

答:p408-p411

60.過擬合在深度學習中的常見的一些解決方案或結構設計

答:p230-p268;包括:Parameter Norm Penalties( 參數范數懲罰); Dataset Augmentation (數據集增強); Early Stopping(提前終止); Parameter Tying and Parameter Sharing (參數綁定與參數共享); Bagging and Other Ensemble Methods(Bagging 和其他集成方法);Dropout. 另外還有Batch Normalization。

61.怎么理解貝葉斯模型的有效參數數據會根據數據集的規模自動調整

答:關於非參數模型:p115-p116 ;非參數模型不依賴於特定的概率模型,它的參數是無窮維的,數據集的規模的大小影響着模型使用更多或者更少的參數來對其進行建模。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM