1.【單選題】 (C) 有跟環境進行交互 , 從反饋當中進行不斷的學習的過程。
A 、 監督學習
B 、 非監督學習
C 、 強化學習
D 、 線性回歸
典型的“雞尾酒會”問題中,提取出不同人說話的聲音是屬於(A)
A.非監督學習
線性回歸
監督學習
強化學習
3.【單選題】 Q 函數 Q(s,a) 是指在一個給定狀態 s 下 , 采取某一個動作 a 之后 , 后續的各個狀態所能得到的回報的 (A) 。
A 、 期望值
B 、 最大值
C 、 最小值
D 、 總和
在Q-Learning中,所謂的Q函數是指(A)
D.動作值函數
5.【單選題】在 ε-greedy 策略當中 ,ε 的值越大 , 表示采用隨機的一個動作的概率越 (), 采用當前 Q 函數值最大的動作的概率越 (A) 。
A 、 大 ; 小
B 、 大 ; 大
C 、 小 ; 小
D 、 小 ; 大
6.【單選】在強化學習的過程中,學習率α越大,表示采用新的嘗試得到的結果比例越____,保持舊的結果的比例越____。(B)
D.小;大
7.【單選題】在強化學習過程中 ,(A) 表示隨機地采取某個動作 , 以便於嘗試各種結果 ;() 表示采取當前認為最優的動作 , 以便於進一步優化評估當前認為最優的動作的值。
A 、 探索 ; 開發
B 、 開發 ; 探索
C 、 探索 ; 輸出
D 、 開發 ; 輸出
8.【單選題】強化學習中 ,(A) 主要探索未知的動作會產生的效果 , 有利於更新 Q 值 , 獲得更好的策略。
A 、 探索
B 、 開發
C 、 輸入
D 、 輸出
9.【單選題】馬爾可夫性質強調在每一個動作狀態序列中 , 下一個狀態與 (D) 有關。
A 、 外部影響
B 、 主體內因
C 、 歷史狀態
D 、 當前狀態
10.【單選題】強化學習的回報值一個重要特點是具有 (D) 。
A 、 客觀性
B 、 主體性
C 、 超前性
D 、 滯后性
11.【多選題】用於監督分類的算法有 (ABC) 。
A 、 支持向量機
B 、 決策樹
C 、 神經網絡
D 、 線性回歸
12.【判斷題】人工智能學習玩 Flappy Bird 過程中 , 只需要人類告訴 AI 不能碰到水管即可 , 不需要提供其他信息。 ( × )
13.【判斷題】狀態動作函數直接決定主體該采取什么決策。 (√ )
14.【填空】在支持向量機分類算法中,用於支撐兩個類別最寬分解線的這些樣本點稱為_______。
填空:支持向量 或 support vector##%_YZPRLFH_%##Support Vector##%_YZPRLFH_%##Support vector