多巴胺所表達的prediction error信號

本文轉載自查看原文 2018-07-15 16:51 1052

Dopamine reward prediction-error signalling: a two-component response （Wolfram Schultz; NATURE REVIEWS | NEUROSCIENCE）

中腦的多巴胺系統（SN、VTA）、紋狀體、OFC、杏仁核等部位都會表達諸如獎賞的量、可能性、主觀價值、效用、風險等信號。
在SN和VTA里面，大部分的多巴胺神經元都會通過一個短暫的Phasic的反應（一過性的反應）來編碼temporal reward prediction error，即表達期待的獎賞與現實可得到的獎賞之間的差值。這一腦細胞的活動信號，剛好跟強化學習里面的prediction error的功效是一致的。
多巴胺細胞按照其反應的速度或模式來分，會有三種亞型：第一種是快速的（Phasic的），在刺激出現之后100、200毫秒即會反應的亞秒級的多巴胺信號；第二種是更慢的，會在刺激出現之后10來分鍾左右才會得到最強烈的信號；第三種是Tonic，它是與Phasic的反應相對的，不是突發的一過性信號，而是始終存在的持續性的信號。
這三種信號之中，只有亞秒級的多巴胺信號編碼的是prediction error的信息，其余的兩種則會表達壓力、注意力、運動等信息。
並且，這種亞秒級的多巴胺信號會包含兩個成分。下圖中0秒的位置代表一個刺激的出現的話，第一個成分是下圖中藍色的部分，是對於突然出現刺激的反應，接下來這個反應會消失，取而代之的是紅色部分，表達的是獎賞的價值的信號。

這片Review文章就是來具體考察多巴胺細胞的這種Phasic的反應的，它的初期成分是無差別地檢測出潛在的獎賞（包含刺激本身是厭惡的或者中性的情況），后期成分是表達價值的信息的。並且這一表示“獎賞”的PE信號實際上可能是編碼“效用”（Utility）的PE的信號。

獎賞首先是通過其物理特性（大小、形狀、顏色等Physical Salience）來讓人感知到，這就是初期成分的來源，之后進一步與已知的東西進行比較，判斷其是否是新奇的（Novelty Salience）或是驚訝的（Surprise Salience），等這一判別過程完成之后，才會進行價值評估（Valuation），價值將獎賞和其他的物體或是刺激區分了開來。價值因其能激發人的動力（Motivational Salience）所以有價值的東西才能吸引人的注意。

然而，這一先檢測刺激的有無，然后才對價值進行區分的逐級處理反應模式並非局限於多巴胺細胞，比如在前額葉的Frontal Eye Field（FEF）中也有類似的反應。
這是讓猴子來看兩種刺激，但只追蹤其中某個目標，剛開始的時候不論是要追蹤的目標還是錯誤目標，FEF的神經元都會對他有反應（下圖的綠線和紫線的高峰位置），在刺激出現大約150ms之后才會對要追蹤的和不要追蹤的目標產生差異性的反應。如果是看到了要追蹤的目標則神經元會持續活躍（紫色），反之則開始沉默（綠色）。

對於多巴胺細胞而言，如果僅僅是使用簡單的、快速呈現的刺激（一個可以獲得獎賞、一個不可以），就很難發現它會存在這種層級式的反應，所以要不然用統計的方法（計算偏回歸系數），要不然就把刺激的處理時間延長，從而區分出這兩個不同的信號。如下圖中將多巴胺細胞的反應區分成對於物理性刺激的反應（藍色）和對於獎賞價值（紅色）的反應的兩個成分。

有些多巴胺神經元不存在或者只是存在較弱的初期成分，對於存在初期成分的神經元來說，各種感官刺激形式（視覺、聽覺、味覺等）以及不論是獎賞還是可預測獎賞的刺激、或是沒有獎賞的刺激、厭惡性刺激以及預測獎賞會消失的刺激都會激發它們初期成分的反應。初期成分的反應對於刺激的出現時間是極為敏感的，因此它正是在編碼時序預測誤差（temporal prediction error）。

初期成分的強弱會受到一些因素的左右。比如，

更強的刺激會帶來更強的多巴胺發放（下方第一張圖中90分貝就比72分貝要引發更強的反應）。弱的物理刺激只會誘發很小的或根本不引發多巴胺的發放（除非它們跟獎賞連在一起）。
環境（context）的作用：不跟獎賞聯系在一起的刺激只會引發很小的多巴胺活動，但是當它出現在曾經獲得過獎賞的環境中時就會有效地引發多巴胺的活動（下方第二張圖種右邊的三個綠色背景的圖案中，因為最上面第一跟獎賞相聯系，引發了右邊紫色曲線代表的多巴胺的活動，所以第二個和第三個的圖案突然也會一定程度引起右邊深綠色和淺綠色代表的多巴胺的活動；與之相對，左邊的豎着的三張圖，因為沒有相同的背景，所以除了直接跟獎賞相聯系的第一張圖能引發強烈的多巴胺活動之外，其余兩張圖能因為的活動相對就比較小了）。可能神經元是被環境所指導的，只要是在可能獲得獎賞的環境中，一旦出現一個刺激，在還沒辨認清楚這個刺激是什么的時候就會開始發放，直到能確認某個刺激確實不是跟獎賞聯系在一起的刺激。
刺激之間的物理相似度：某個刺激跟獎賞相連，那么跟這個刺激長得差不多的刺激也會增強多巴胺的初期成分，這一過程就是“泛化（Generalization）”。比如在一堆可以預示着獎賞的聲音刺激中，穿插着呈現一個圖形刺激，並且這個圖形刺激是跟厭惡性的東西（Air-Puf，用風吹眼睛）相連的，這一代表着厭惡的圖形刺激只能激活16%的多巴胺神經元，但是如果把預示着獎賞的刺激從聲音也換成圖形，這時候，代表厭惡的圖形刺激會激活65%的多巴胺神經元（下面第三張圖中活動比綠色更強烈的紫色的部分）。也就是說，不跟獎賞聯系在一起的刺激如果其物理上的（外觀上的）相似度和代表獎賞的刺激越接近的話，也就越能引起更強的多巴胺的反應。
新奇的刺激也能激發多巴胺神經元的活動。比如下方第四張圖中，新奇的刺激是在一個動物面前突然打開一個空盒子的門，圖中最中間的豎線代表打開門的時間點，如果是上半部分（即動物前10次見到這種情況），神經元會在經歷打開門的動作之后變得很活躍（更多的紫色的點），但是當動物習慣之后（第70～80次經歷相同的情況），多巴胺神經元在看到打開門的動作之后的反應就恢復正常了。但是如果物理性的刺激很弱的話，即便是頭一次見到也不會激發多巴胺的反應（好比在很安靜的環境中，即便突然出現蚊子哼的聲音也並不能嚇我們一跳）。
這幾個能促進多巴胺發放的情況的共性是：這些刺激代表着潛在的獎賞；更強烈的刺激（突然發生的一件事）可能預示着獎賞的存在，錯過了它可能就會錯過獲得獎勵，所以多巴胺神經元會對它有反應。那些跟已知的能獲得獎賞的刺激長得很像的刺激，或者是新刺激出現在曾經過得過獎賞的環境的情況，更是預示着它們有更高的可能性會帶來獎賞。所以多巴胺的初期成分就已經是為了獲得獎賞而做好准備了。

突出性（Salience）會誘發多巴胺反應的初期成分，但這基本上僅限於刺激是獎賞性的時候，因為懲罰（Punisher）、負向獎賞預測誤差（Nagtive Reward PE）和條件性的獎賞抑制因素（conditioned reward inhibitors）幾乎都不會誘發這種成分（但是新奇或驚訝的刺激可以）。

無分別初期成分的優勢：它並不是對於情況的誤判，而是可以避免錯過任何可能帶來獎賞的東西。它有助於增強獎賞用來促進學習和行動的能力。更強的突出性可以帶來更快的學習（Attentional Pearce–Hall learning rule），可能可以促進后續的獎賞價值評估過程，從而可以增強行為的准確度。這種出現得極早的初期成分可以讓后續的反應變得更快，但是一旦發現刺激實際上沒有價值的時候，后續的行動也仍然是來得及被取消的。

有分別后期成分的作用--價值評估：如果刺激代表的實際價值高於預期的話，多巴胺的后期成分就會產生正向預測誤差信號（Positive PE），即多巴胺細胞會更活躍；如果刺激的價值低於預期，則產生負向預測誤差信號（Negative PE），多巴胺細胞的活動會減弱；跟預期相同的話，則活動程度不變。而這正是Rescorla–Wagner model（這一模型解釋了它之前無法解釋的Blocking Effect，即比如在經典條件反射中，巴浦洛夫的狗知道鈴聲可以預測肉，所以聽到鈴聲會流口水，之后如果每次出現鈴聲的時候也同時亮一個燈，雖然燈也可以預示着肉的到來，但是狗不會學會燈預示着肉這條規則，這個現象在經典理論中無法解釋，因為經典理論認為既然燈能預測肉，它的效果跟鈴聲能預測肉是一樣的，為什么狗單獨看到燈不會流口水。但Rescorla–Wagner用他們的模型說明了，如果鈴聲能100%預測肉的出現，那么狗只通過鈴聲就可以預測未來，無需再加入燈的因素；學習是要靠PE來促進的，在剛開始用鈴聲訓練的那時候狗根本不知道鈴聲后面居然有肉，所以產生了預測誤差，肉讓狗感到驚訝，但是等狗掌握了這一規則，他已經不會為鈴聲以及鈴聲加燈光后會出現肉的現象感到驚訝了，所以就不再學習了）的強化學習中至關重要的誤差要素。(有必要參考這篇文章去理解條件反射是如何形成的The Origins and Organization of Vertebrate Pavlovian Conditioning，預測獎賞的過程是一個根據概率進行推理的過程)

主觀價值：價值必然是主觀的，但是標志着期待的獎賞的價值的多巴胺信號究竟是表示主觀價值還是客觀價值則不明朗。為了區分是主觀還是客觀價值，可以這樣，給出兩種口味不同但客觀價值相等的獎賞（比如黑加侖汁和橙汁）讓猴子選擇，如果猴子喜歡黑加侖汁，這證明對它來說黑加侖汁的主觀價值更高。或者給予動物有風險的和無風險的兩種選擇，有風險的選擇是果汁時多時少，無風險的是每次的量都相同，但這兩種選擇的平均值都是一樣的，動物如果喜歡有風險的選擇的話，也證明風險的選項對它的主觀價值更高。動物的這種喜好甚至是傳遞性的，即，喜歡A勝過B，喜歡B勝過C，那么動物在A和C兩者之間也會選擇A的。多巴胺神經元會在選擇喜歡的果汁時候發放更強，這表明它是編碼主觀價值的。另一個區分主觀與客觀價值的方法是時間貼現（Temporal discounting），獎賞的價值隨着等待時間（delay）增加而減少。如下圖所示，刺激之后只要等待2秒（黑色）就能獲得獎賞時的多巴胺發放強度比等待16秒（灰色）要強。

效用（Utility）：經濟學中對於獎賞的主觀價值的定義就是效用。在某個特定時間內（比如出現刺激后的200ms內）的動作電位的數量其實就可以量化猴子的某個神經元認為該刺激所具有的（主觀）價值。經濟學理論中認為效用可以通過加入風險性回報選項的實驗進行計算。導入風險的最簡單的辦法是采用等概率賭博（小的回報和大的回報以相同概率出現，即，一半一半），然后讓動物選擇是參加這種賭博還是每次拿一筆固定的回報（無風險），如果固定回報很小而參加賭博可以發一大筆橫財的話動物會選擇參與賭博，在固定回報上升到某一程度可以讓動物以相同概率在賭博和固定回報中選擇、不偏好賭博的時候（即達到確定性等價=certainty equivalents），所有的確定性等價的值可以被拿來構建效用函數了。在估計出下圖中紅色曲線表示的效用函數后，就會發現多巴胺的PE信號是跟效用函數相關的：看紅色曲線，在獎賞量較低，在0.1到0.4ml的果汁的時候，多巴胺發放量較少，同時效用函數值也很低，這意味着果汁的主觀價值很低，此時動物就會偏向去選擇冒險性的選項；隨着獎賞的進一步增多，紅色曲線變陡，此時效用急升，但是在獎賞到達一定高度，大約1ml之后，效用函數又開始變得平緩，此時更多的獎賞也不會帶來更大的效用了（安全的獎賞已經足夠，所以更不願去冒險了）。灰色的柱狀圖代表的多巴胺的發放模式跟紅色曲線的趨勢是一致的。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 dense prediction 推斷（inference）和預測（prediction） Intra Luma Prediction dense prediction問題 Qt 5 最新信號和槽連接方式以及Lambda表達式 Kaggle: Google Analytics Customer Revenue Prediction EDA iocp中GetQueuedCompletionStatus 121 信號燈超時時間已到 (error sem timeout) 【信號】信號頻率、采樣能量信號與功率信號