人工智能與信息社會——基於神經網絡的智能系統II


1.【單選題】 (C) 有跟環境進行交互 , 從反饋當中進行不斷的學習的過程。

A 、 監督學習

B 、 非監督學習

C 、 強化學習

D 、 線性回歸

2.【
單選】

典型的“雞尾酒會”問題中,提取出不同人說話的聲音是屬於(A)

A.非監督學習

B.

線性回歸

C.

監督學習

D.

強化學習

3.【單選題】 Q 函數 Q(s,a) 是指在一個給定狀態 s 下 , 采取某一個動作 a 之后 , 后續的各個狀態所能得到的回報的 (A) 。

A 、 期望值

B 、 最大值

C 、 最小值

D 、 總和

4.【
單選】

在Q-Learning中,所謂的Q函數是指(A)

A.狀態動作函數
B.策略函數
C.狀態值函數

D.動作值函數

5.【單選題】在 ε-greedy 策略當中 ,ε 的值越大 , 表示采用隨機的一個動作的概率越 (), 采用當前 Q 函數值最大的動作的概率越 (A) 。

A 、 大 ; 小

B 、 大 ; 大

C 、 小 ; 小

D 、 小 ; 大

6.【單選】在強化學習的過程中,學習率α越大,表示采用新的嘗試得到的結果比例越____,保持舊的結果的比例越____。(B)

A.大;大
B.大;小
C.小;小

D.小;大

7.【單選題】在強化學習過程中 ,(A) 表示隨機地采取某個動作 , 以便於嘗試各種結果 ;() 表示采取當前認為最優的動作 , 以便於進一步優化評估當前認為最優的動作的值。

A 、 探索 ; 開發

B 、 開發 ; 探索

C 、 探索 ; 輸出

D 、 開發 ; 輸出

8.【單選題】強化學習中 ,(A) 主要探索未知的動作會產生的效果 , 有利於更新 Q 值 , 獲得更好的策略。

A 、 探索

B 、 開發

C 、 輸入

D 、 輸出

9.【單選題】馬爾可夫性質強調在每一個動作狀態序列中 , 下一個狀態與 (D) 有關。

A 、 外部影響

B 、 主體內因

C 、 歷史狀態

D 、 當前狀態

10.【單選題】強化學習的回報值一個重要特點是具有 (D) 。

A 、 客觀性

B 、 主體性

C 、 超前性

D 、 滯后性

11.【多選題】用於監督分類的算法有 (ABC) 。

A 、 支持向量機

B 、 決策樹

C 、 神經網絡

D 、 線性回歸

12.【判斷題】人工智能學習玩 Flappy Bird 過程中 , 只需要人類告訴 AI 不能碰到水管即可 , 不需要提供其他信息。 ( × )

13.【判斷題】狀態動作函數直接決定主體該采取什么決策。 (√ )

14.【填空】在支持向量機分類算法中,用於支撐兩個類別最寬分解線的這些樣本點稱為_______。

填空:支持向量 或 support vector##%_YZPRLFH_%##Support Vector##%_YZPRLFH_%##Support vector


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM