第三周 - 淺層神經網絡
第 21 題
以下哪項是正確的?(選出所有正確項)
A.\(a^{[2](12)}\)是第12層,第2個訓練數據的激活向量
B.\(X\)是一個矩陣,其中每個列是一個訓練數據
C.\(a^{[2]}_4\)是第2層,第4個訓練數據的激活輸出
D.\(a^{[2]}_4\)是第2層,第4個神經元的激活輸出
E.\(a^{[2]}\)表示第2層的激活向量
F.\(a^{[2](12)}\)是第2層,第12個數據的激活向量
G.\(X\)是一個矩陣,其中每個行是一個訓練數據
第 22 題
對於隱藏單元,tanh激活通常比sigmoid激活函數更有效,因為其輸出的平均值接近於零,因此它可以更好地將數據集中到下一層。
A.對
B.不對
第 23 題
以下哪一個是\(l\)層的正向傳播的正確矢量化實現,其中\(1 \le l \le L\)
A.
\(Z^{[l]}=W^{[l]}A^{[l]}+b^{[l]}\)
\(A^{[l+1]}=g^{[l]}(Z^{[l]})\)
B.
\(Z^{[l]}=W^{[l]}A^{[l]}+b^{[l]}\)
\(A^{[l+1]}=g^{[l+1]}(Z^{[l]})\)
C.
\(Z^{[l]}=W^{[l-1]}A^{[l]}+b^{[l]}\)
\(A^{[l]}=g^{[l]}(Z^{[l]})\)
D.
\(Z^{[l]}=W^{[l]}A^{[l-1]}+b^{[l]}\)
\(A^{[l+1]}=g^{[l]}(Z^{[l]})\)
第 24 題
您正在構建一個用於識別黃瓜(y=1)與西瓜(y=0)的二進制分類器。對於輸出層,您建議使用哪一個激活函數?
A.ReLU
B.Leaky ReLU
C.sigmoid
D.tanh
第 25 題
考慮以下代碼:
A = np.random.randn(4,3)
B = np.sum(A, axis = 1, keepdims = True)
B.shape
是多少?
A.(4,)
B.(1, 3)
C.(, 3)
D.(4, 1)
第 26 題
假設你已經建立了一個神經網絡。您決定將權重和偏差初始化為零。以下哪項陳述是正確的?(選出所有正確項)
A.第一隱藏層中的每個神經元將執行相同的計算。因此,即使在梯度下降的多次迭代之后,層中的每個神經元將執行與其他神經元相同的計算。
B.第一隱層中的每個神經元在第一次迭代中執行相同的計算。但是在梯度下降的一次迭代之后,他們將學會計算不同的東西,因為我們已經“破壞了對稱性”。
C.第一個隱藏層中的每個神經元將執行相同的計算,但不同層中的神經元執行不同的計算,因此我們完成了課堂上所描述的“對稱性破壞”。
D.即使在第一次迭代中,第一個隱藏層的神經元也會執行不同的計算,因此,它們的參數會以自己的方式不斷演化。
第 27 題
邏輯回歸的權重w應該隨機初始化,而不是全部初始化為全部零,否則,邏輯回歸將無法學習有用的決策邊界,因為它將無法“打破對稱”
A.對
B.不對
第 28 題
你已經為所有隱藏的單位建立了一個使用tanh激活的網絡。使用np.random.randn(…, …)*1000
將權重初始化為相對較大的值。會發生什么?
A.沒關系。只要隨機初始化權重,梯度下降不受權重大小的影響。
B.這將導致tanh的輸入也非常大,從而導致梯度也變大。因此,你必須將\(\alpha\)設置得非常小,以防止發散;這將減慢學習速度。
C.這將導致tanh的輸入也非常大,導致單元被“高度激活”。與權重從小值開始相比,加快了學習速度。
D.這將導致tanh的輸入也非常大,從而導致梯度接近於零。因此,優化算法將變得緩慢。
第 29 題
考慮以下1個隱層的神經網絡:
A.\(W^{[1]}\)的形狀是(2, 4)
B.\(b^{[1]}\)的形狀是(4, 1)
C.\(W^{[1]}\)的形狀是(4, 2)
D.\(b^{[1]}\)的形狀是(2, 1)
E.\(W^{[2]}\)的形狀是(1, 4)
F.\(b^{[2]}\)的形狀是(4, 1)
G.\(W^{[2]}\)的形狀是(4, 1)
H.\(b^{[2]}\)的形狀是(1, 1)
第 30 題
在和上一問相同的網絡中,\(Z^{[1]}\) 和 \(A^{[1]}\)的維度是多少?
A.\(Z^{[1]}\) 和 \(A^{[1]}\)是(4, 1)
B.\(Z^{[1]}\) 和 \(A^{[1]}\)是(1, 4)
C.\(Z^{[1]}\) 和 \(A^{[1]}\)是(4, m)
D.\(Z^{[1]}\) 和 \(A^{[1]}\)是(4, 2)
21-30題 答案
21.BDEF 22.A 23.D 24.C 25.D 26.A 127.B 28.D 29.BC EH 30.C