深度學習(一)-------算法崗面試題


● BatchNormalization的作用

參考回答:

神經網絡在訓練的時候隨着網絡層數的加深,激活函數的輸入值的整體分布逐漸往激活函數的取值區間上下限靠近,從而導致在反向傳播時低層的神經網絡的梯度消失。而Batch Normalization的作用是通過規范化的手段,將越來越偏的分布拉回到標准化的分布,使得激活函數的輸入值落在激活函數對輸入比較敏感的區域,從而使梯度變大,加快學習收斂速度,避免梯度消失的問題。

● 梯度消失

參考回答:

在神經網絡中,當前面隱藏層的學習速率低於后面隱藏層的學習速率,即隨着隱藏層數目的增加,分類准確率反而下降了。這種現象叫做消失的梯度問題。

● 循環神經網絡,為什么好?

參考回答:

循環神經網絡模型(RNN)是一種節點定向連接成環的人工神經網絡,是一種反饋神經網絡,RNN利用內部的記憶來處理任意時序的輸入序列,並且在其處理單元之間既有內部的反饋連接又有前饋連接,這使得RNN可以更加容易處理不分段的文本等。

● 什么是Group Convolution

參考回答:

若卷積神將網絡的上一層有N個卷積核,則對應的通道數也為N。設群數目為M,在進行卷積操作的時候,將通道分成M份,每個group對應N/M個通道,然后每個group卷積完成后輸出疊在一起,作為當前層的輸出通道。

● 什么是RNN

參考回答:

一個序列當前的輸出與前面的輸出也有關,在RNN網絡結構中中,隱藏層的輸入不僅包括輸入層的輸出還包含上一時刻隱藏層的輸出,網絡會對之前的信息進行記憶並應用於當前的輸入計算中。

● 訓練過程中,若一個模型不收斂,那么是否說明這個模型無效?導致模型不收斂的原因有哪些?

參考回答:

並不能說明這個模型無效,導致模型不收斂的原因可能有數據分類的標注不准確,樣本的信息量太大導致模型不足以fit整個樣本空間。學習率設置的太大容易產生震盪,太小會導致不收斂。可能復雜的分類任務用了簡單的模型。數據沒有進行歸一化的操作。

● 圖像處理中銳化和平滑的操作

參考回答:

銳化就是通過增強高頻分量來減少圖像中的模糊,在增強圖像邊緣的同時也增加了圖像的噪聲。

平滑與銳化相反,過濾掉高頻分量,減少圖像的噪聲是圖片變得模糊。

● VGG使用3*3卷積核的優勢是什么?

參考回答:

2個3*3的卷積核串聯和5*5的卷積核有相同的感知野,前者擁有更少的參數。多個3*3的卷積核比一個較大尺寸的卷積核有更多層的非線性函數,增加了非線性表達,使判決函數更具有判決性。

● Relu比Sigmoid的效果好在哪里?

參考回答:

Sigmoid的導數只有在0的附近時有較好的激活性,而在正負飽和區域的梯度趨向於0,從而產生梯度彌散的現象,而relu在大於0的部分梯度為常數,所以不會有梯度彌散現象。Relu的導數計算的更快。Relu在負半區的導數為0,所以神經元激活值為負時,梯度為0,此神經元不參與訓練,具有稀疏性。

● 問題:神經網絡中權重共享的是?

參考回答:

卷積神經網絡、循環神經網絡

解析:通過網絡結構直接解釋

● 問題:神經網絡激活函數?

參考回答:

sigmod、tanh、relu

解析:需要掌握函數圖像,特點,互相比較,優缺點以及改進方法

● 問題:在深度學習中,通常會finetuning已有的成熟模型,再基於新數據,修改最后幾層神經網絡權值,為什么?

參考回答:

實踐中的數據集質量參差不齊,可以使用訓練好的網絡來進行提取特征。把訓練好的網絡當做特征提取器。

● 問題:畫GRU結構圖

參考回答:

GRU有兩個門:更新門,輸出門

解析:如果不會畫GRU,可以畫LSTM或者RNN。再或者可以講解GRU與其他兩個網絡的聯系和區別。不要直接就說不會。

● Attention機制的作用

參考回答:

減少處理高維輸入數據的計算負擔,結構化的選取輸入的子集,從而降低數據的維度。讓系統更加容易的找到輸入的數據中與當前輸出信息相關的有用信息,從而提高輸出的質量。幫助類似於decoder這樣的模型框架更好的學到多種內容模態之間的相互關系。

● Lstm和Gru的原理

參考回答:

Lstm由輸入門,遺忘門,輸出門和一個cell組成。第一步是決定從cell狀態中丟棄什么信息,然后在決定有多少新的信息進入到cell狀態中,最終基於目前的cell狀態決定輸出什么樣的信息。

Gru由重置門和跟新門組成,其輸入為前一時刻隱藏層的輸出和當前的輸入,輸出為下一時刻隱藏層的信息。重置門用來計算候選隱藏層的輸出,其作用是控制保留多少前一時刻的隱藏層。跟新門的作用是控制加入多少候選隱藏層的輸出信息,從而得到當前隱藏層的輸出。

● 什么是dropout

參考回答:

在神經網絡的訓練過程中,對於神經單元按一定的概率將其隨機從網絡中丟棄,從而達到對於每個mini-batch都是在訓練不同網絡的效果,防止過擬合。

● LSTM每個門的計算公式

參考回答:

遺忘門:

輸入門:

輸出門:

● DropConnect的原理

參考回答:

防止過擬合方法的一種,與dropout不同的是,它不是按概率將隱藏層的節點輸出清0,而是對每個節點與之相連的輸入權值以一定的概率清0。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM