Task03:過擬合、欠擬合及其解決方案;梯度消失、梯度爆炸;循環神經網絡進階
task03筆記見:https://www.cnblogs.com/guohaoblog/p/12324894.html
過擬合、欠擬合及其解決方案
1、關於驗證數據集的描述錯誤的是:
A、測試數據集可以用來調整模型參數
B、驗證數據集可以用來調整模型參數
C、在數據不夠多的時候,k折交叉驗證是一種常用的驗證方法
D、k折交叉驗證將數據分為k份,每次選擇一份用於驗證模型,其余的用於訓練模型
答:選擇A
測試數據集不可以用來調整模型參數,如果使用測試數據集調整模型參數,可能在測試數據集上發生一定程度的過擬合,此時將不能用測試誤差來近似泛化誤差。
2、關於過擬合、欠擬合概念的描述錯誤的是:
A、過擬合是指訓練誤差很低,泛化誤差相對於訓練誤差要高很多
B、過擬合和欠擬合可以同時發生
C、欠擬合是指訓練誤差和泛化誤差都無法到達一個較低的水平
D、過擬合和欠擬合都是在訓練中容易遇到的經典問題
答:選擇B
過擬合是指訓練誤差達到一個較低的水平,而泛化誤差依然較大。
欠擬合是指訓練誤差和泛化誤差都不能達到一個較低的水平。
發生欠擬合的時候在訓練集上訓練誤差不能達到一個比較低的水平,所以過擬合和欠擬合不可能同時發生。
3、關於模型復雜度和數據集大小造成欠擬合和過擬合的描述錯誤的是:
A、模型復雜度低容易導致欠擬合
B、訓練數據集小容易導致過擬合
C、解決欠擬合可以考慮增加模型的復雜度
D、緩解過擬合只能增加訓練數據集的大小
答:選擇D
過擬合還可以使用權重衰減和丟棄法來緩解,即使在一個比較小的數據集上使用了權重衰減和丟棄法之后也能夠達到一個比較好的效果。
4、關於權重衰減和丟棄法的描述錯誤的是:
A、L2范數正則化在損失函數的基礎上添加了L2范數懲罰項
B、L2范數懲罰項通過懲罰絕對值較大的參數的方法來應對欠擬合的
C、丟棄法通過隨機丟棄層間元素,使模型不依賴於某一個元素來應對過擬合的
D、L2范數正則化是權重衰減的一種方式
答:選擇B
L2范數正則化也就是權重衰減是用來應對過擬合的。
有時可以同時結合L1和L2范數,加入到損失函數中,以應對過擬合問題
梯度消失、梯度爆炸
1、關於導致梯度消失和梯度爆炸的描述錯誤的是:
A、梯度消失會導致模型訓練困難,對參數的優化步長過小,收效甚微,模型收斂十分緩慢
B、梯度爆炸會導致模型訓練困難,對參數的優化步長過大,難以收斂
C、激活函數使用sigmoid或者tanh可以緩解梯度消失
D、在訓練模型時,我們應該采取適當的措施防止梯度消失和梯度爆炸的現象
答:選擇C
在深層網絡中盡量避免選擇sigmoid和tanh激活函數,原因是這兩個激活函數會把元素轉換到[0, 1]
和[-1, 1]
之間,會加劇梯度消失的現象。ReLU激活函數目前在深度神經網絡中用的最多。
2、一個在冬季部署的物品推薦系統在夏季的物品推薦列表中出現了聖誕禮物,我們可以推斷該系統沒有考慮到:
A、協變量偏移
B、標簽偏移
C、概念偏移
D、沒有問題
答:選擇A
可以理解為在夏季的物品推薦系統與冬季相比,時間或者說季節發生了變化,導致了夏季推薦聖誕禮物的不合理的現象,這個現象是由於協變量時間發生了變化造成的。
3、下列關於模型訓練實戰步驟排序正確的是:
- 模型驗證和模型調整(調參)
- 獲取數據集
- 模型設計
- 模型預測以及提交
- 數據預處理
A、12345
B、23145
C、25143
D、25314
答:選擇D
正確的順序應該是:
- 獲取數據集
- 數據預處理
- 模型設計
- 模型驗證和模型調整(調參)
- 模型預測及提交
所以最終選擇25314。
4、關於協變量偏移、標簽偏移、概念偏移的描述中錯誤的是:
A、協變量偏移和標簽偏移可能同時發生
B、標簽偏移可以簡單理解為測試時出現了訓練時沒有的標簽
C、確保訓練集和測試集中的數據取自同一個數據集,即使訓練數據和測試數據數據量很少也可以防止協變量偏移和標簽偏移
D、概念偏移可以根據其緩慢變化的特點緩解
答:選擇C
如果數據量足夠的情況下,確保訓練數據集和測試集中的數據取自同一個數據集,可以防止協變量偏移和標簽偏移是正確的。如果數據量很少,少到測試集中存在訓練集中未包含的標簽,就會發生標簽偏移。
循環神經網絡進階
1、關於循環神經網絡描述錯誤的是:
A、在同一個批量中,處理不同語句用到的模型參數Wh和bh是一樣的
B、循環神經網絡處理一個長度為T的輸入序列,需要維護T組模型參數
C、各個時間步的隱藏狀態Ht不能並行計算
D、可以認為第t個時間步的隱藏狀態Ht包含截止到第t個時間步的序列的歷史信息
答:選擇B
A項:批量訓練的過程中,參數是以批為單位更新的,每個批次內模型的參數都是一樣的。
B項:循環神經網絡通過不斷循環使用同樣一組參數來應對不同長度的序列,故網絡的參數數量與輸入序列長度無關。
C項:隱狀態Ht的值依賴於H1, ..., Ht−1,故不能並行計算。
D項:正確
2、關於梯度裁剪描述錯誤的是:
A、梯度裁剪之后的梯度小於或者等於原梯度
B、梯度裁剪是應對梯度爆炸的一種方法
C、裁剪之后的梯度L2范數小於閾值Θ
D、梯度裁剪也是應對梯度消失的一種方法
答:選擇D
梯度裁剪只能應對梯度爆炸
3、關於困惑度的描述錯誤的是:
A、困惑度用來評價語言模型的好壞
B、困惑度越低語言模型越好
C、有效模型的困惑度應該大於類別個數
答:選擇C
一個隨機分類模型(基線模型)的困惑度等於分類問題的類別個數,有效模型的困惑度應小於類別個數。
4、關於采樣方法和隱藏狀態初始化的描述錯誤的是:
A、采用的采樣方法不同會導致隱藏狀態初始化方式發生變化
B、采用相鄰采樣僅在每個訓練周期開始的時候初始化隱藏狀態是因為相鄰的兩個批量在原始數據上是連續的
C、采用隨機采樣需要在每個小批量更新前初始化隱藏狀態是因為每個樣本包含完整的時間序列信息
答:選擇C
隨機采樣中每個樣本只包含局部的時間序列信息,因為樣本不完整所以每個批量需要重新初始化隱藏狀態。