南大2021高級機器學習期末復習

本文轉載自查看原文 2021-06-27 14:13 141

十、降維和度量學習
十一、特征選擇和稀疏學習
十二、半監督學習
十三、概率圖模型:基本概念和方法
十四、強化學習簡介
- 14.1、MDP

十、降維和度量學習

10.1、k-近鄰學習

10.1.1、懶惰學習

不關心學到什么，只一字不差的存儲內容

10.1.2、KNN錯誤率

最近鄰分離器的錯誤率：設樣本x，最近鄰z，錯誤率為1-(x和z同類)

X=z時，求得最近鄰分離器的泛化錯誤率<=2*最優貝葉斯分類器的泛化錯誤率。

\[\begin{aligned} P(e r r) &=1-\sum_{c \in \mathcal{Y}} P(c \mid \boldsymbol{x}) P(c \mid \boldsymbol{z}) \\ & \simeq 1-\sum_{c \in \mathcal{Y}} P^{2}(c \mid \boldsymbol{x}) \\ & \leqslant 1-P^{2}\left(c^{*} \mid \boldsymbol{x}\right) \\ &=\left(1+P\left(c^{*} \mid \boldsymbol{x}\right)\right)\left(1-P\left(c^{*} \mid \boldsymbol{x}\right)\right) \\ & \leqslant 2 \times\left(1-P\left(c^{*} \mid \boldsymbol{x}\right)\right) \end{aligned} \]

最近鄰分類器雖簡單，但它的泛化錯誤率不超過貝葉斯最優分類器的錯誤率的兩倍!

10.2、低維嵌入

10.2.1、維數災難

在高維情形下出現的數據樣本稀疏、距離計算困難等問題，是所有機器學習方法共同面臨的嚴重障礙，被稱為維數災難。

10.2.2、多維數縮放方法MDS

MDS (Multiple Dimensional Scaling) 旨在尋找一個低維子空間，

樣本在此子空間內的距離和樣本原有距離盡量保持不變

輸入:距離矩陣 \(\mathbf{D} \in \mathbb{R}^{m \times m}\), 其元素 \(d i s t_{i j}\) 為樣本 \(x_{i}\) 到 \(x_{j}\) 的距離; 低維空間維數d' :

過程：

1: 計算\({dist}_{i .}^{2}\),\({dist}_{. j}^{2}\),\({dist}_{. .}^{2}\)

\[\begin{aligned} \text { dist }_{i .}^{2} &=\frac{1}{m} \sum_{j=1}^{m} \operatorname{dist}_{i j}^{2} \\ \text { dist }_{\cdot j}^{2} &=\frac{1}{m} \sum_{i=1}^{m} \operatorname{dist}_{i j}^{2} \\ \text { dist }_{. .}^{2} &=\frac{1}{m^{2}} \sum_{i=1}^{m} \sum_{j=1}^{m} d i s t_{i j}^{2} \end{aligned} \]

2: 由此即可通過降維前后保持不變的距離矩陣 D 求取內積矩陣 B.

\[b_{i j}=-\frac{1}{2}\left(d i s t_{i j}^{2}-d i s t_{i .}^{2}-d i s t_{\cdot j}^{2}+\right. dist.. \left.^{2}\right) \]

3: 對矩陣 B 做特征值分解;
\(B = V{\Lambda}V^T\)

其中 \({\Lambda} = diag(λ_1,λ_2， ...，{\lambda}_d)\)為特征值構成的對角矩陣，

4: 取 \(\tilde{\Lambda}\) 為 d' 個最大特征值所構成的對角矩陣，\(\tilde{V}\)為相應的特征向量矩陣.

輸出:矩陣\(\tilde{\mathbf{V}} \tilde{\mathbf{\Lambda}}^{1 / 2} \in \mathbb{R}^{m \times d^{\prime}}\)，每行是一個樣本的低維坐標

10.3、PCA

https://blog.csdn.net/u010910642/article/details/51442939

10.3.1、最近重構性:樣本點到這個超平面的距離都足夠近

考慮整個訓練集，原樣本點\(x_i\)與基於投影重構的樣本點\(\hat{x_i}\)之間的距離為

\[\begin{aligned} \sum_{i=1}^{m}\left\|\sum_{j=1}^{d^{\prime}} z_{i j} \boldsymbol{w}_{j}-\boldsymbol{x}_{i}\right\|_{2}^{2} &=\sum_{i=1}^{m} \boldsymbol{z}_{i}^{\mathrm{T}} \boldsymbol{z}_{i}-2 \sum_{i=1}^{m} \boldsymbol{z}_{i}^{\mathrm{T}} \mathbf{W}^{\mathrm{T}} \boldsymbol{x}_{i}+\mathrm{const((\sum{x}_{i}^{{T}} {x}_{i})} \\ & \propto-\operatorname{tr}\left(\mathbf{W}^{\mathrm{T}}\left(\sum_{i=1}^{m} \boldsymbol{x}_{i} \boldsymbol{x}_{i}^{\mathrm{T}}\right) \mathbf{W}\right) \end{aligned} \]

\(\propto\)代表是正比

\(\boldsymbol{w}_{j}\) 是正交基 \(\sum_{i} \boldsymbol{x}_{i} \boldsymbol{x}_{i}^{\mathrm{T}}\) 是協方差矩陣，於是由最近重構性，有：

\[\begin{array}{cl} \min _{\mathbf{W}} & -\operatorname{tr}\left(\mathbf{W}^{\mathrm{T}} \mathbf{X} \mathbf{X}^{\mathrm{T}} \mathbf{W}\right) \\ \text { s.t. } & \mathbf{W}^{\mathrm{T}} \mathbf{W}=\mathbf{I} \end{array} \]

10.3.2、最大可分性:樣本點在這個超平面上的投影能盡可能分開

樣本點\(x_i\)在新空間上的投影為\(W^Tx_i\)
若所有樣本點能近可能分開，則應該使投影后樣本的方差最大，即\(\sum_ix_i^TWW^Tx_i\)
由\(x_i^TWW^Tx_i\)=\(tr(W^Tx_ix^T_iW)\)
可知優化目標函數為

\[\begin{array}{cl} \max _{\mathbf{W}} & \operatorname{tr}\left(\mathbf{W}^{\mathrm{T}} \mathbf{X} \mathbf{X}^{\mathrm{T}} \mathbf{W}\right) \\ \text { s.t. } & \mathbf{W}^{\mathrm{T}} \mathbf{W}=\mathbf{I} \end{array} \]

10.3.3、求解

使用拉格朗日乘子法可得

\(XX^TW = {\lambda}W\)

只需對協方差矩陣 \(XX^T\) 進行特征值分解，並將求得的特征值排序\(:{\lambda}_1,{\lambda}_ 2 ··· {\lambda}_d\) ，再取前 d’ 個特征值對應的特征向量構成 \(W = (w_1, w_2, . . . , w_{d'} )\)，這就是主成分分析的解。

10.4、流形學習

線性降維方法假設從高維空間到低維空間的函數映射是線性的,然而在許多現實任務中，可能需要非線性映射才能找到恰當的低維嵌入

10.4.1、核化PAC

核化PCA:加了一個核函數

假定 \(z_{i}\) 是由原始屬性空間中樣本點通過映射 \(\phi\) 產生, 即 \(_{\mathbf{z}_{i}}=\phi\left(\boldsymbol{x}_{i}\right), i=1,2, \ldots, m\)
於是有

\[\begin{array}{l} \left(\sum_{i=1}^{m} \phi\left(\mathbf{x}_{i}\right) \phi\left(\boldsymbol{x}_{i}\right)^{\mathrm{T}}\right) \mathbf{W}=\lambda \mathbf{W}, \\ \mathbf{W}=\sum_{i=1}^{m} \phi\left(\boldsymbol{x}_{i}\right) \boldsymbol{\alpha}_{i} \end{array} \]

令 \(\kappa\left(\boldsymbol{x}_{i}, \boldsymbol{x}_{j}\right)=\phi\left(\boldsymbol{x}_{i}\right)^{\mathrm{T}} \phi\left(\boldsymbol{x}_{j}\right)\) 可得 \(\mathbf{K A}=\lambda \mathbf{A}, \mathbf{A}=\left(\boldsymbol{\alpha}_{1} ; \boldsymbol{\alpha}_{\mathbf{2}} ; \ldots ; \boldsymbol{\alpha}_{\mathbf{m}}\right)\)
於是

\[\begin{aligned} z_{j} &=\boldsymbol{w}_{j}^{\mathrm{T}} \phi(\boldsymbol{x})=\sum_{i=1}^{m} \alpha_{i}^{j} \phi\left(\boldsymbol{x}_{i}\right)^{\mathrm{T}} \phi(\boldsymbol{x}) \\ &=\sum_{i=1}^{m} \alpha_{i}^{j} \kappa\left(\boldsymbol{x}_{i}, \boldsymbol{x}\right) \end{aligned} \]

10.4.2、ISOMAP

構造近鄰圖
基於最短路徑算法近似任意兩點之間的測地線(geodesic)距離
基於距離矩陣通過MDS獲得低維嵌入

10.4.3、LLE

為每個樣本構造近鄰集合\(Q_i\)
為每個樣本計算基於Qi的線性重構系數

\[\begin{aligned} \min _{\mathbf{w}_{1}, \mathbf{w}_{2}, \ldots, \mathbf{w}_{m}} & \sum_{i=1}^{m}\left\|\boldsymbol{x}_{i}-\sum_{j \in Q_{i}} w_{i j} \boldsymbol{x}_{j}\right\|_{2}^{2} \\ \text { s.t. } & \sum_{j \in Q_{i}} w_{i j}=1, \\ \end{aligned} \]
在低維空間中保持\(w_{ij}\) 不變，求解下式

\[\\ \min _{\mathbf{z}_{1}, \mathbf{z}_{2}, \ldots, \mathbf{z}_{m}} \sum_{i=1}^{m}\left\|\boldsymbol{z}_{i}-\sum_{j \in Q_{i}} w_{i j} \boldsymbol{z}_{j}\right\|_{2}^{2} \]

10.5、度量學習

10.5.1、馬氏距離

馬氏距離就是特征空間通過矩陣L做完線性變換后的歐式距離。當L為單位陣時，馬氏距離就等於歐式距離。

\[\operatorname{dist}_{\operatorname{mah}}^{2}\left(\boldsymbol{x}_{i}, \boldsymbol{x}_{j}\right)=\left(\boldsymbol{x}_{i}-\boldsymbol{x}_{j}\right)^{\mathrm{T}} \mathbf{M}\left(\boldsymbol{x}_{i}-\boldsymbol{x}_{j}\right)=\left\|\boldsymbol{x}_{i}-\boldsymbol{x}_{j}\right\|_{\mathrm{M}}^{2} \]

其中 M 是一個半正定對稱矩陣，亦稱“度量矩陣”，距離度量學習就是要對 M 進行學習

十一、特征選擇和稀疏學習

11.1、子集搜索

用貪心策略選擇包含重要信息的特征子集

前向搜索:逐漸增加相關特征
后向搜索:從完整的特征集合開始，逐漸減少特征
雙向搜索:每一輪逐漸增加相關特征，同時減少無關特征

11.2、子集評價

\[\operatorname{Gain}(A)=\operatorname{Ent}(D)-\sum_{v=1}^{V} \frac{\left|D^{v}\right|}{|D|} \operatorname{Ent}\left(D^{v}\right) \]

其中信息熵定義為：

\[\operatorname{Ent}(D)=-\sum_{i=1}^{|\mathcal{Y}|} p_{k} \log _{2} p_{k} \]

信息增益 Gain(A) 越大，意味着特征子集 A 包含的有助於分類的信息越多.於是，對每個候選特征子集，我們可基於訓練數據集 D 來計算其信息增益，以此作為評價准則.

11.3、常見的特征選擇方法

11.3.1、Filter：過濾法

先對特征集進行特征選擇，然后再訓練學習器

特點：特征選擇過程與后續學習器無關，直接“過濾”特征

方法：對各個特征進行評分，設定閾值或者待選擇閾值的個數，來選擇特征。

11.3.1.1、Relief方法

針對二分類問題。

1、給定訓練集\({(x_1,y_1),(x_2,y_2)...(x_m,y_m,)}\)。

2、對每個示例，先在\(x_{i}\),的同類樣本中尋找其最近鄰\(x_{i,nh}\)，稱為“猜中近鄰”(near-hit) 。

3、再從\(x_i\);的異類樣本中尋找最近鄰\(x_{i,nm}\)，稱為“猜錯近鄰”(near-miss)，然后相關統計量。

4、在對應屬性j的分量為
\(\delta_{j}=\sum_{i}-\operatorname{diff}\left(x_{i}^{j}-x_{i, n h}^{j}\right)^{2}+\operatorname{diff}\left(x_{i}^{j}-x_{i, n m}^{j}\right)^{2}\)

5、其中\(x_{a}^j\),表示樣本\(x_{a}\)在屬性j上的取值。注意x。已經歸一化到[0,1]區間。

6、從上面的式子可以看出，若\(x_i\)與其猜中近鄰\(x_{i,nh}\)在屬性j上的距離小於與其猜錯近鄰\(x_{i,nm}\)的距離，則說明屬性j對區分同類與異類樣本是有益的，反之，則說明是無意義的。

11.3.1.2、其擴展變體Relief-F能處理多分類問題

\(\delta^{j}=\sum_{i}-\operatorname{diff}\left(x_{i}^{j}, x_{i, n h}^{j}\right)^{2}+\sum_{l \neq k}\left(p_{l} \times \operatorname{diff}\left(x_{i}^{j}, x_{i, l, n m}^{j}\right)^{2}\right)\)

\(p_l\)為第l類樣本在數據集D中所占的比例

11.3.2、包裹式

直接把最終將要使用的學習器的性能作為特征子集的評價准則，選擇的是“量身定做”的特征子集。

特點：多個特征聯合評價，對子集進行模型訓練和評價。

11.3.2.1、LVW

LVW（拉斯維加斯方法）：隨機產生特征子集，使用交叉驗證來估計學習器的誤差，當在新特征子集上表現的誤差更小，或者誤差相當但包含的特征更少，就將新特征子集保留下來。

在循環的每一輪隨機產生一個特征子集
在隨機產生的特征子集上通過交叉驗證推斷當前特征子集的誤差
進行多次循環，在多個隨機產生的特征子集中選擇誤差最小的特征子集作為最終解*
若有運行時間限制，則該算法有可能給不出解

蒙特卡洛：在規定時間給出不符合要求的解。

11.3.3、嵌入式

特點：嵌入法將兩者融為一體，在同一個優化過程中完成，在學習訓練的過程中，自動進行了特征選擇。

方法：先使用某些機器學習的算法和模型進行訓練，得到各個特征的權值系數，根據系數從大到小選擇特征。

為了防止過擬合，會引入正則化項

考慮最簡單的線性回歸模型，以平方誤差為損失函數，並引入\(L_2\)范數正則化項防止過擬合，則有

11.3.3.1、嶺回歸 (ridge regression) [Tikhonov and Arsenin, 1977]

\(\min _{\boldsymbol{w}} \sum_{i=1}^{m}\left(y_{i}-\boldsymbol{w}^{\top} \boldsymbol{x}_{i}\right)^{2}+\lambda\|\boldsymbol{w}\|_{2}^{2}\)

11.3.3.2、將L2范數替換為L1范數，則有LASSO [Tibshirani, 1996]

易獲得稀疏解，是一種嵌入式特征選擇方法

\(\min _{\boldsymbol{w}} \sum_{i=1}^{m}\left(y_{i}-\boldsymbol{w}^{\top} \boldsymbol{x}_{i}\right)^{2}+\lambda\|\boldsymbol{w}\|_{1}\)

11.4、使用范數正則化易獲得稀疏解

L1正則化的解具有稀疏性，可用於特征選擇。

L1正則化方法：近端梯度下降。

L2正則化的解都比較小，抗擾動能力強。

從貝葉斯的角度，L2相當於給θ一個先驗分布為高斯分布

11.5、稀疏表示

稀疏表示：特征—>矩陣，矩陣->稀疏矩陣

文本數據線性可分l 存儲高效

普通稠密表達的樣本找到合適的字典，將樣本轉化為稀疏表示，這一過程稱為字典學習。

壓縮感知：利用部分數據恢復全部數據。

𝐴具有“限定等距性”時，可以近乎完美地恢復𝒔

11.6、矩陣補全

NP難問題. 將rank(𝐗)轉化為其凸包“核范數”（nuclear norm）

凸優化問題，通過半正定規划求解（SDP，Semi-Definite

十二、半監督學習

12.1、高斯混合模型（Gaussian Mixture Model）通常簡稱GMM

1、通過觀察采樣的概率值和模型概率值的接近程度，來判斷一個模型是否擬合良好。

2、然后我們通過調整模型以讓新模型更適配采樣的概率值。反復迭代這個過程很多次，直到兩個概率值非常接近時，我們停止更新並完成模型訓練。

3、我們要將這個過程用算法來實現，所使用的方法是模型生成的數據來決定似然值，即通過模型來計算數據的期望值。

4、通過更新參數μ和σ來讓期望值最大化。

5、這個過程可以不斷迭代直到兩次迭代中生成的參數變化非常小為止。

12.2、TSVM

https://blog.csdn.net/u011826404/article/details/74358913

監督學習中的SVM試圖找到一個划分超平面，使得兩側支持向量之間的間隔最大，即“最大划分間隔”思想。對於半監督學習，S3VM則考慮超平面需穿過數據低密度的區域。TSVM是半監督支持向量機中的最著名代表，其核心思想是：嘗試為未標記樣本找到合適的標記指派，使得超平面划分后的間隔最大化。TSVM采用局部搜索的策略來進行迭代求解，即首先使用有標記樣本集訓練出一個初始SVM，接着使用該學習器對未標記樣本進行打標，這樣所有樣本都有了標記，並基於這些有標記的樣本重新訓練SVM，之后再尋找易出錯樣本不斷調整。整個算法流程如下所示：
這里寫圖片描述

這里寫圖片描述

類別不平衡問題：

\(C_u^+=\frac{u_-}{u_+}C_u^-\)

開銷巨大

12.3、圖半監督學習

12.4、基於分歧

兩個“充分”(sufficient)且“條件獨立”視圖。

兩個learner分別給無標記數據生成一個偽標簽喂給另一個learner，進行訓練。

僅需弱學習器之間具有顯著的分歧(或差異), 即可通過相互提供偽標記樣本的方式來提高泛化性能。

特點：

只需采用合適的基學習器，學習方法簡單有效、理論基礎相對堅實、適用范圍較為廣泛。
需能生成具有顯著分歧、性能尚可的多個學習器,
但當有標記樣本很少、尤其是數據不具有多視圖時, 要做到這一點並不容易。

12.5、半監督聚類

基於無監督，有標記樣本提供額外的監督信息。

勿連和必連：約束k均值。選擇最近簇時出錯不滿足要求則選擇次近簇。約束k均值算法。
1. 該算法是k均值算法的擴展,它在聚類過程中要確保“必連 ”關系集合與“勿連”關系集合中的約束得以滿足，否則將返回錯誤提示。
類標：第二種監督信息是少量有標記樣本。即假設少量有標記樣本屬於k個聚類簇。
1. 約束種子k均值。作為聚類種子初始化，更新簇時不計算，計算簇中心計算，

十三、概率圖模型:基本概念和方法

13.1、隱馬爾可夫模型(動態貝葉斯網)

13.2、馬爾可夫隨機場

13.3、條件隨機場

條件隨機場是一種判別式 無向圖模型(可看作給定觀測值的MRF)

條件隨機場對多個變量給定相應觀測值后的條件概率進行建模，若令\(x= x_1,x_2,...,x_n\)為觀測序列,\(y= y_1,y_2,...,y_n\)為對應的標記序列， CRF的目標是構建條件概率模型\(P(y|x)\)。

13.4、學習與推斷

13.4.1、精確推斷

13.4.2、信念傳播

13.4.3、近似推斷

采樣法(sampling):通過使用隨機化方法完成

在很多任務中，我們關心某些概率分布並非因為對這些概率分布本身感興趣，而是要基於它們計算某比期望，並且還可能進一步基於這些期望做出決策.

采樣法正是基於這個思路.具體來說，假定我們的目標是計算函數 f(x) 在概率密度函數 p(x) 下的期望

\[\mathbb{E}_{p}[f]=\int f(x) p(x) d x \]

則可根據 p(x) 抽取一組樣本 \(\left\{x_{1}, x_{2}, \ldots, x_{N}\right\}\)，然后計算 f(x) 在這些樣本上的均值

\[\hat{f}=\frac{1}{N} \sum_{i=1}^{N} f\left(x_{i}\right) \]

13.4.3.1、MCMC采樣

馬爾可夫鏈蒙特卡羅 (Markov Chain Monte Carlo，簡稱 MCMC)方法：

給定連續變量 \(x\in X\)的概率密度函數 p(x),x在區間 A 中的概率可計算為

\[P(A)=\int_{A} p(x) d x \]

若有函數 \(f: X \mapsto \mathbb{R}\), 則可計算 \(f(x)\) 的期望

\[p(f)=\mathbb{E}_{p}[f(X)]=\int_{x} f(x) p(x) d x \]

若𝑥為高維多元變量且服從一個復雜分布，積分操作會很困難。

p MCMC先構造出服從𝒑分布的獨立同分布隨機變量\(\mathbf{X}_{1}, \mathbf{X}_{2}, \ldots, \mathbf{X}_{\mathbf{N}}\),再得到無偏估計

\[\tilde{p}(f)=\frac{1}{N} \sum_{i=1}^{N} f\left(x_{i}\right) \]

13.4.3.2、MH算法

13.4.4、變分推斷

13.5、話題模型

十四、強化學習簡介

14.1、MDP

1、機器處於環境 \(E\) 中, 狀態空間為 \(X\), 其中每個狀態 \(x \in X\) 是機器感知到的環境的描述,

2、如在種瓜任務上這就是當前瓜苗長勢的描述; 機器能采取的動作構成了動作空間 \(A\), 如種瓜過程中有澆水、施不同的肥、使用不同的農葯等多種可供選擇的動作;

3、若某個動作 \(a \in A\) 作用在當前狀態 \(x\) 上, 則潛在的轉移函數 \(P\) 將使得環境從當前狀態按某種概率轉移到另一個狀態, 如瓜苗狀態為缺水, 若選擇動作澆水, 則瓜苗長勢會發生變化, 瓜苗有一定的概率恢復健康, 也有一定的概率無法恢復;

4、在轉移到另一個狀態的同時, 環境會根據潛在的“獎賞” \((\mathrm{reward})\) 函數 \(R\) 給機器獎賞，如保持瓜苗健康對應獎賞 \(+1\), 瓜苗調零對應獎賞 \(-10\), 最終種出了好瓜對應獎賞 \(+100 .\)

5、綜合起來, 強化學習任務對應了四元組 \(E=\langle X, A, P, R\rangle\), 其中 \(P: X \times A \times X \mapsto \mathbb{R}\) 指定了狀態轉移概率, \(R: X \times A \times X \mapsto \mathbb{R}\) 指定了獎賞;

6、在有的應用中, 獎賞函數可能僅與狀態轉移有關, 即 \(R: X \times X \mapsto \mathbb{R} .\)

圖 \(16.2\) 給出了一個簡單例子：給西瓜澆水的馬爾可夫決策過程。

1、該任務中只有四個狀態(健康、缺水、溢水、凋亡)和兩個動作(澆水、不澆水)

2、在每一步轉移后，若狀態是保持瓜商健康則獲得獎賞 1，瓜苗缺水或溢水獎賞為-1，這時通過澆水或不澆水可以恢復健康狀態，當瓜苗凋亡時獎賞是最小值 -100且無法恢復.

3、圈中箭頭表示狀態轉移，箭頭旁的 α，p，r 分別表示導致狀態轉移的動作、轉移概率以及返回的獎賞.

4、容易看出，最優策略在"健康"狀態選擇動作"澆水"、在"溢水"狀態選擇動作"不澆水"、在"缺水"狀態選擇動作"澆水"、在"調亡"狀態可選擇任意動作.

1、機器要做的是通過在環境中不斷地嘗試而學得一個 “策略”(policy) \(\pi\)

2、根據這個策略, 在狀態 \(x\) 下就能得知要執行的動作 \(a=\pi(x)\), 例如看到瓜苗狀態是缺水時，能返回動作“澆水".

3、策略有兩種表示方法: 一種是將策略表示為函數 \(\pi: X \mapsto A\), 確定性策略常用這種表示。

4、另一種是概率表示 \(\pi: X \times A \mapsto \mathbb{R}\), 隨機性策略常用這種表示。

5、\(\pi(x, a)\) 為狀態 \(x\) 下選擇動作 \(a\) 的概率, 這里必須有 \(\sum_{a} \pi(x, a)=1\)。

6、策略的優劣取決於長期執行這一策略后得到的累積獎賞,例如某個策略使得瓜苗枯死, 它的累積獎賞會很小, 另一個策略種出了好瓜, 它的累積獎賞會很大.

7、在強化學習任務中, 學習的目的就是要找到能使長期累積獎賞最大化的策略. 長期累積獎賞有多種計算方式

8、常用的有“ \(T\) 步累積獎賞” \(\mathbb{E}\left[\frac{1}{T} \sum_{t=1}^{T} r_{t}\right]\) 和“ \(\gamma\) 折扣累積獎賞" \(\mathbb{E}\left[\sum_{t=0}^{+\infty} \gamma^{t} r_{t+1}\right]\), 其中 \(r_{t}\) 表示第 \(t\) 步獲得的獎賞值, \(\mathbb{E}\) 表示對所有隨機變量求期望.

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 機器學習與數據挖掘期末考試復習重點整理 2021年3月1日-機器學習三要素 [期末復習] 數據結構期末復習 python 機器學習什么是多模態機器學習？ spark機器學習機器學習（七）—回歸機器學習個人總結開始機器學習機器學習概覽