Learning Representations from EEG with Deep Recurrent-Convolutional Neural Networks


摘要

       從腦電圖(EEG)數據建模認知事件的挑戰之一是尋找對主體之間和內部差異不變的表征,以及與腦電圖數據收集相關的固有噪聲。在此,我們提出了一種新的方法來學習這種表示從多通道EEG時間序列,並證明了它的優勢在背景下的心理負荷分類任務。首先,我們將腦電圖的活動轉化為一序列的拓撲保留多光譜圖像,而不是標准的腦電圖分析技術忽略這類空間信息。接下來,我們訓練一個深度遞歸卷積網絡,靈感來自於最先進的視頻分類技術,以學習圖像序列的魯棒表示。該方法旨在保留腦電圖的空間、光譜和時間結構,從而在每個維度內找到對變化和畸變不那么敏感的特征。對認知負荷分類任務的實證評估表明,與目前該領域的先進方法相比,分類准確率有顯著提高。

引言

近年來,深度神經網絡在圖像、視頻、語音和文本等廣泛應用領域的識別任務方面取得了巨大成功(Krizhevsky等,2012;Graves等,2013年;Karpathy & Toderici, 2014年;張樂存,2015;Hermann et al., 2015)。卷積神經網絡(ConvNets)是目前處理圖像和視頻數據的最佳架構的核心,這主要是因為它們能夠提取對輸入模式的部分平移和變形具有魯棒性的表示(LeCun et al., 1998)。另一方面,遞歸神經網絡在時域序列動力學的許多應用中表現出了最先進的性能,例如,手寫和語音識別(Graves等,2013年;2008)。此外,這兩種網絡類型的結合最近被用於視頻分類(Ng et al., 2015)。

盡管深度神經網絡在大規模圖像、視頻和文本數據上的大量成功應用,但它們在神經成像領域的應用還相對較少。其中一個主要原因可能是大多數神經成像數據集中的樣本數量有限,因此這些數據不足以訓練具有數百萬參數的大規模網絡。正如它經常被證明的那樣,當數據集的大小變得非常大時,深度神經網絡比傳統機器學習技術的優勢變得更加明顯。盡管如此,深度信念網絡和卷積神經網絡在之前的一些中等數據集大小的工作中已經被用於從功能性磁共振成像(fMRI)和腦電圖(EEG)中學習表征,。Plis等人(2014)表明,在深度信念網絡中添加幾個受限制的Boltzman機器層,並在網絡中使用監督預訓練結果,可以學習越來越復雜的數據表示,與其他分類器相比,取得相當大的准確率提高。在其他工作中,卷積和遞歸神經網絡被用於從EEG時間序列中提取表征(Mirowski et al., 2009;Cecotti & Graser, 2011;Guler等,2005)。這些研究證明了在神經成像中采用(縮小比例的)深度神經網絡的潛在好處,即使在缺乏如圖像、視頻和文本模式可用的上百萬樣本數據集的情況下也是如此。然而,這些研究都沒有試圖在空間、時間和頻率范圍內共同保存腦電圖數據的結構。

在此,我們探討了深度神經網絡從腦電圖數據建模認知事件的能力。腦電圖是一種廣泛應用的無創神經成像方式,它通過測量由皮質活動引起的頭皮上的電壓變化來工作。使用經典的盲源分離類比,腦電圖數據可以被認為是從幾個“麥克風”(與腦電圖電極相關聯)獲得的多通道“語音”信號,這些麥克風記錄了來自多個“揚聲器”(對應於大腦皮層區域的活動)的信號。最新的腦電圖精神狀態識別包括從連續時間序列中手動選擇特征和應用監督學習算法學習狀態之間的區別流形(Lotte & Congedo, 2007;Subasi & Ismail Gursoy, 2010)。從觀察到的大腦活動中正確識別心理狀態的一個關鍵挑戰是建立一個模型,該模型對信號在空間、頻率和時間上的平移和變形具有魯棒性,這是由於主體之間和內部的差異,以及信號采集協議。大部分的變化源於大腦皮層映射和/或功能的細微的個體差異,導致在空間、光譜和時間模式上的觀察差異。此外,由於不同大小和形狀的頭部的腦電帽的不完美擬合,用於將電極置於預先確定的皮質區域頂部的腦電帽可能成為觀察到的反應空間變化的另一個來源。附錄中給出了一個例子,說明在腦電圖數據中可能存在較高的受試者間和受試者內變異性。

我們提出了一種從腦電圖數據學習表征的新方法,這種方法依賴於深度學習,似乎對被試之間和內部的差異更魯棒,以及測量相關噪聲。我們的方法與之前使用深度神經網絡從腦電圖學習高水平表征的嘗試有本質上的不同。具體來說,我們沒有將低層腦電圖特征表示為矢量,而是將數據轉換為多維張量,在整個學習過程中保留了數據的結構。換句話說,我們得到的是一組拓撲保留的多光譜圖像,而不是標准的腦電圖分析技術忽略這些空間信息。一旦獲得了這樣的EEG“電影”,我們就訓練深度遞歸卷積神經網絡架構(Ng et al., 2015),從圖像序列或幀中學習魯棒表示。具體來說,我們使用ConvNets從每幀數據中提取空間和光譜不變表示,使用LSTM網絡提取幀序列中的時間模式。總體而言,該方法旨在保留腦電圖數據的空間、光譜和時間結構,並提取對每個維度內的變化和畸變更有魯棒性的特征。認知負荷分類任務的經驗評估表明,相對於該領域目前最先進的方法,分類錯誤從15.3%(該應用的最新水平)降低到8.9%。

我們的方法

(1)從EEG時間序列制作圖像

          腦電圖包括多個時間序列,與大腦皮層不同空間位置的測量結果相對應。與語音信號相似,語音信號最顯著的特征存在於頻域,通常是利用信號的譜圖進行研究。然而,如前所述,腦電圖信號具有額外的空間維度。每次試驗都對時間序列進行快速傅里葉變換(FFT)來估計信號的功率譜。與記憶操作相關的皮質振盪活動主要存在於三個頻段:theta (4-7Hz)、alpha (8-13Hz)和beta (13-30Hz) (Bashivan et al., 2014;Jensen & Tesche, 2002)。計算三個頻帶內各絕對值的平方和,並用於每個電極的單獨測量。

        將所有電極的光譜測量數據聚合成特征向量是腦電圖數據分析的標准方法。然而,這種方法顯然忽略了數據在空間、頻率和時間上的固有結構。相反,我們建議將測量數據轉換為二維圖像,以保持空間結構,並使用多種顏色通道來表示光譜維數。最后,我們利用連續時間窗的圖像序列來解釋大腦活動的時間演化

    腦電圖電極以三維空間分布在頭皮上。為了將空間分布的活動地圖轉換為二維圖像,我們需要首先將電極的位置從三維空間投影到二維表面上。然而,這種轉變也應該保持相鄰電極之間的相對距離。為此,我們使用方位等距投影(AEP),也稱為極投影,借用了地圖應用(Snyder, 1987)。方位投影形成在一個平面上,這個平面通常在兩極、赤道或任何中間點與地球相切。在方位等距投影中,從投影中心到任何其他點的距離被保留。類似地,在我們的例子中,戴在人頭上的帽子的形狀可以近似成一個球體,同樣的方法可以用來計算電極位置在一個與頭部頂部相切的二維表面上的投影。該方法的一個缺點是,地圖上各點之間的距離只保留一個點(中心點),因此,所有電極對之間的相對距離將不會被准確地保留。將AEP應用於3-D電極位置,我們得到了2-D電極的投影位置(圖1)。

 

 

 

 

圖像的寬度和高度代表了大腦皮層活動的空間分布。我們應用CloughTocher方案(Alfeld, 1984)來插值頭皮上的散射功率測量值,並用於估計32×32網格上電極之間的值。對感興趣的每個頻帶重復這一步驟,生成對應於每個頻帶的三幅地形圖。然后,這三個空間地圖合並在一起,形成一個有三個(顏色)通道的圖像。這個三通道圖像作為深度卷積網絡的輸入,如下面的部分所述。圖2概述了我們對腦電圖數據進行心理狀態分類的多步驟方法,其新穎之處在於將原始腦電圖轉換為一系列圖像或幀(EEG“電影”),並結合應用於這些轉換后的腦電圖數據上的遞歸卷積網絡架構。請注意,我們的方法是通用的,可以用於任何基於eeg的分類任務,而稍后提出的心理負荷分類的具體問題只是作為一個例子,展示了所提方法的潛在優勢。

(2)結構

我們采用遞歸卷積神經網絡處理腦電數據的固有結構。由於ConvNet具有學習良好的二維數據表示的能力,因此被用於處理空間和頻域的變化。無論何時需要,都將提取的表示形式輸入到另一層中,以說明數據中的時間變化。我們評估了用於提取時間模式的各種類型的層,包括卷積層和循環層。本質上,我們評估了以下兩種主要方法來解決認知狀態分類問題.1)單幀方法:在整個試驗過程中,通過光譜測量結果構建出一張圖像。然后將構建的圖像用作ConvNet的輸入。 2)多幀方法:我們將每個試驗分為0.5秒窗口,並在每個時間窗口上構建圖像,每個試驗提供7幀(請參閱第4節)。然后將圖像序列用作遞歸卷積網絡的輸入數據。我們使用Lasagne來實現本文討論的不同體系結構。可在線獲得生成EEG圖像以及構建和訓練本文討論的網絡所需的代碼。

   卷積神經網絡結構

     我們采用了模仿Imagenet分類挑戰中使用的VGG網絡的架構(Simonyan&Zisserman,2015)。該網絡具有高度可擴展的架構,該架構使用具有小的接收場的堆疊卷積層。所有卷積層都使用大小為3×3的小接收場,跨度為1個像素,具有ReLU激活功能。卷積層輸入填充有1個像素,以保留卷積后的空間分辨率。多個卷積層堆疊在一起,然后是maxpool層。在2×2的窗口上執行最大池化,步幅為2像素。對於位於較深堆棧中的層,每個卷積層中的內核數增加兩倍。多個卷積層的堆疊可產生較大尺寸的有效接收場,而所需的參數卻少得多(Simonyan&Zisserman,2015)。

單幀方法

     對於這種方法,通過在整個試驗持續時間(3.5秒)上應用FFT(快速傅里葉變換)來生成單個EEG圖像。這種方法的目的是找到優化的ConvNet配置。我們首先通過計算整個試用期內的平均活動來研究問題的簡化版本。為此,我們計算了整個試驗過程中的所有功率特性。按照此程序,每個試驗的EEG記錄都減少為單個多通道圖像。我們評估了各種深度的ConvNet配置,如表1所示。

 

 卷積層參數在這里表示為conv <接收域大小>-<內核數>。本質上,配置A僅涉及堆疊在一起的兩個卷積層(Conv3-32),然后是maxpool層;配置B在體系結構A的基礎上增加了兩個卷積層(Conv3-64),接着是另一個maxpool;然后配置C再加上一個卷積層(Conv3-128),然后是maxpool;配置D與C不同,它在開始時使用4個而不是2個Conv3-32卷積層。最后,在所有這些架構之上添加具有512個節點的完全連接層(FC-512),最后是softmax。

多幀方法

對於每個框架,我們采用了單框架方法中性能最好的ConvNet架構。為了減少網絡中的參數數量,所有ConvNet跨幀共享參數。所有ConvNet的輸出都將重塑為順序幀,並用於調查地圖中的時間序列。我們評估了從活動圖序列中提取時間信息的三種方法,其靈感來自於一組用於視頻分類的深度學習技術(Ng等,2015)。參見圖3:1)隨時間推移的最大池化; 2)時間卷積; 3)LSTM。

 最后,最后一層的輸出被饋送到具有512個隱藏單元的完全連接層,然后是四路softmax層。我們將全連接層中的神經元數量保持相對較低,以控制網絡中參數的總數。在最后兩個完全連接的層上使用了50%的dropout。

Max-pooling:此模型跨時間幀在ConvNet輸出上執行最大池化。雖然從這個模型中發現的表示保留了空間位置,但是它們是有序不變的。

Temporal convolution:該模型對跨時間幀的卷積輸出應用1-D卷積。我們評估了大小為3的16核和32核模型,步幅為1幀。內核捕獲跨多個幀的不同時間模式。

Long Short-Term Memory (LSTM): 遞歸神經網絡的輸入形狀為序列x = (x1,…, xT)計算隱藏向量序列h = (h1,…, hT),輸出向量y = (y1,…, yT),在t = 1到t之間迭代:

 

其中W項表示權重矩陣,b項表示偏差向量,H是隱層函數.考慮到神經反應的動態性以及腦電圖數據的動態性,遞歸神經網絡(RNN)似乎是一種建模腦活動時間演化的合理選擇。長短期記憶(LSTM)模型(Hochreiter & Schmidhuber, 1997)是一種改善記憶的RNN.它使用帶有內部存儲器和門控輸入/輸出的記憶細胞,在捕獲長期依賴關系方面表現得更有效。LSTM的隱含層函數計算公式如下:

 

 其中,logistic sigmoid函數為,LSTM模型的組成部分分別為輸入門、遺忘門、輸出門和細胞激活向量,分別為i、f、o和c(詳見(Hochreiter & Schmidhuber, 1997))。我們實驗了最多兩層LSTM,每層都有不同數量的存儲單元,在一層128單元的情況下得到了最好的結果。只有LSTM在看到完整幀序列后所做的預測被傳播到全連接層。我們采用了LSTM來捕捉ConvNet激活序列中的時間演化。由於大腦活動是一個時間動態的過程,幀之間的變化可能包含關於潛在心理狀態的額外信息。

 2.3 TRAINING

通過優化交叉熵損失函數來進行訓練。ConvNets的權重共享導致不同層的梯度差異很大,因此在應用SGD時通常使用較小的學習率。我們使用Adam算法(Kingma & Ba, 2015)對遞歸卷積網絡進行訓練,學習因子為10−3,一階矩衰減率為0.9,二階矩衰減率為0.999。批大小設置為20。Adam已經被證明在用於訓練卷積網絡以及多層神經網絡時,可以達到極具競爭力的快速收斂速度。此外,VGG架構需要更少的時間收斂,這是由於更大的深度和更小的卷積濾波器尺寸強加的隱式正則化。我們的網絡中存在大量的參數,這使得它容易發生過擬合。我們采取了幾項措施來解決這個問題。在所有全連接層中使用概率為0.5的Dropout (Hinton et al., 2012)。此外,我們通過在隨機選擇的驗證集上監視模型的性能,使用了早期停止。Dropout regularization被證明是一種有效的方法來減少具有數百萬參數的深度神經網絡的過擬合(Krizhevsky et al., 2012)和神經成像應用(Plis et al., 2014)。此外,解決樣本數量和模型參數數量之間不平衡比例的另一種常用方法是使用數據增強人為地擴展數據集。我們嘗試用隨機添加噪聲的圖像生成的增強數據來訓練網絡。在增加數據時,我們沒有使用圖像翻轉或縮放,因為對EEG圖像的方向和位置有不同的解釋(對應於不同的皮質區域)。我們在每張圖片上添加了不同的噪聲等級。然而,增加數據集並沒有提高分類性能,並且對於更高的噪聲值增加了錯誤率。圖4顯示了訓練集上新紀元次數的驗證損失。我們發現,經過大約600次迭代(5個新紀元)后,網絡參數收斂。

 

 3基線的方法

我們將我們的方法與支持向量機(SVM)、隨機森林、稀疏邏輯回歸和深度信念網絡(DBN)等常用的分類器進行了比較。這里,我們簡要描述了這些方法中使用的一些細節和參數設置。

SVM:通過對訓練集進行交叉驗證,通過網格搜索選擇由正則化罰分參數(C)和RBF核標准偏差的倒數(γ= 1 /σ)組成的SVM超參數(C = {0.01,0.1,1,10,100}, γ= {0.1,0.2,...,1,2,...,10})。

Random Forest: 隨機森林是一種由一組獨立的隨機決策樹組成的集成方法。每棵樹都是使用隨機選擇的特征子集來生長的。對於每個輸入,計算所有樹的輸出,並選擇投票最多的類。隨機森林的估計量在{5,10,20,50,100,500,1000}的集合內變化。

Logistic Regression:用l1正則化方法引入logistic回歸模型的稀疏性。通過在訓練集上交叉驗證,選擇最優正則化參數C,搜索對數范圍[10−2103]。

Deep Belief Network:我們使用了三層深度信念網絡(DBN)。第一層為高斯-二進制約束玻爾茲曼機(RBM),另外兩層為二進制約束玻爾茲曼機(RBM)。輸出的最終水平被饋入一個雙向軟最大層,以預測類標簽。對DBN的每一層參數進行貪婪的預訓練,通過將初始隨機參數值向一個良好的局部最小值偏移來提高學習效率(Bengio et al., 2007)。我們在表現出良好性能的三層中使用了以下經驗選擇的神經元數目:512、512和128。最后一層連接到一個有4個單元的softmax層。利用隨機梯度下降和l1-正則化對網絡進行微調,以減少訓練過程中的過擬合。

4在腦電圖數據集上的實驗

          每個人都有不同的認知處理能力,這直接決定了他/她完成智力任務的能力。雖然人類的大腦由許多負責特定任務的網絡組成,但其中許多依賴於更基本的功能性網絡,比如工作記憶。工作記憶負責信息的短暫保留,這對大腦中任何信息的處理都是至關重要的。它的能力限制了個體在一系列認知功能方面的能力。超出個人能力的認知需求(負荷)不斷增加,導致超負荷狀態,導致困惑和學習能力下降(Sweller et al., 1998)。因此,識別個人認知負荷的能力對於包括腦-機接口、人機交互和輔導服務在內的許多應用程序變得非常重要。

         這里我們使用了在工作記憶實驗中獲得的腦電圖數據集。當15名參與者(8名女性)進行一項標准的工作記憶實驗時,腦電圖被記錄下來。我們在之前的出版物(Bashivan et al., 2014)中報道了數據記錄和清洗程序的細節。簡而言之,在標准的10-10個位置,在頭皮上放置64個電極,以500 Hz的采樣頻率連續記錄腦電圖。電極沿中側輪廓放置在距離為10%的位置。其中兩個受試者的數據被排除在數據集之外,因為他們記錄的數據中有過多的噪音和工件。在實驗過程中,一組英文字符被展示了0.5秒,參與者被要求記住這些字符。一個測試字符在三秒鍾后被顯示出來,參與者按下按鈕來指示測試角色是否在第一個數組中(“SET”)。每個參與者重復這個實驗240次。每次試驗中字符集中的字符數被隨機選擇為2、4、6或8。字符的數量決定了參與者的認知負荷,因為隨着字符數量的增加,需要更多的心理資源來保留信息。在整篇論文中,我們分別識別了包含2,4,6,8個字符的條件,負載分別為1-4。記錄下的大腦活動在個體將信息保存在記憶中(3.5秒)期間被用來識別大腦的工作量。記錄下的大腦活動在個體將信息保存在記憶中(3.5秒)期間被用來識別大腦的工作量。圖5展示了工作記憶實驗的時間歷程。

 

 

分類任務是從腦電圖記錄中識別出與設定大小(呈現給被試的字符數)相對應的負荷水平。定義了與load 1-4對應的四個不同的類,並將13個受試者的2670個樣本分配到這四個類中。工作記憶實驗圖;參與者簡單地觀察一個包含多個英文字符集的數組(500ms),並將信息維護三秒鍾。然后測試角色被呈現出來,如果測試章程與集合中的一個角色匹配,參與者就按下按鈕做出反應。連續腦電圖脫機切取等長3.5秒,對應每次試驗。共記錄3120次試驗。數據集只包含與正確應答試驗相對應的數據,使數據集大小減少到2670個試驗。為了評估每個分類器的性能,我們采用了離開-主題-退出交叉驗證方法。在13次折疊中,每一次使用屬於某一受試者的所有試驗作為測試集,然后從其余的數據中隨機抽取一些與測試集相等的樣本作為驗證集,其余的樣本作為訓練集。

  5結果

我們從兩種方法檢查腦電圖數據集。在第一種方法(單幀)中,我們通過對每次試驗的完整持續時間應用FFT來提取功率特征,從而得到對應於每次試驗的單幅3通道圖像。第二種方法是將每次試驗划分為多個時間窗口,分別提取每個窗口的功率特征,從而保存時間信息,而不是將時間信息平均到活動圖的單個切片中。

5.1單幀分類

       我們首先展示我們的分類結果,使用單一幀提取特征在整個試驗期間和應用ConvNets。這部分的目的是在實驗中尋找在完整EEG時間序列生成的圖像上表現最好的卷積網架構。我們評估了不同的卷積和maxpool層數的各種配置。我們遵循VGG架構來選擇每一層的濾波器數量,並將接收域較小的卷積層分組。

    前面給出的表1總結了我們所考慮的架構。表2顯示了每種架構使用的參數數量,以及測試集上獲得的相應誤差。我們發現基於卷積網絡的架構優於我們的基線方法。我們可以看到,將層數增加到7,測試集的可實現錯誤率略有提高。當架構D包含7個卷積層時,得到的最佳結果也略優於基線方法。雖然四種配置之間錯誤率的差異在統計學上並不顯著,但我們選擇架構D是因為它在被認為很難分類的主題子集上的錯誤率相等或更好(錯誤率減少了12%)。大多數網絡參數位於最后兩層(全連接和softmax),包含大約100萬個參數。在VGG風格的網絡中,選擇每一層的過濾器數量時,輸出的大小在每一堆之后保持不變(過濾器的大小乘以核的數量)。為了量化投影類型對結果的重要性,我們使用一個簡單的正射影生成圖像(在z=0平面上),並重新訓練我們的網絡。保留拓撲投影和非保留拓撲投影的差異主要體現在投影圖像的外圍部分(圖1)。在我們的實驗中,我們觀察到使用拓撲保持投影比使用非等距平坦投影的分類誤差有輕微的提高(約0.6%)。然而,這種觀察可能依賴於特定的數據集,需要進一步的研究才能得出結論。此外,使用等距投影方法有助於圖像和特征地圖可視化數據的可解釋性。總的來說,我們的主張是將腦電圖數據映射成二維圖像(特別是等距投影),與將腦電圖簡單地視為時間序列集合的標准的、非空間方法相比,可以更好地分類認知負荷水平。

5.2多幀分類

對於多幀分類,我們采用前一步的構造為D的卷積網絡,並將其應用於每一幀。我們探索了從多個框架聚合時間特征的四種不同方法(圖3)。使用時間卷積和LSTM可以顯著提高分類精度(見表3)。對於存在時間卷積的模型,我們發現32核的網絡優於16核的網絡(誤差11.32% Vs. 12.86%)。

 

仔細看看每個人的准確率,就會發現,雖然兩種方法對8名參與者的分類准確率都接近完美,原因是其余5個個體的准確性存在差異(表4)。這一觀察結果促使我們在單一結構中結合使用時間卷積和LSTM結構,從而在數據集上獲得最佳結果。

 

 對比基線模型在多幀和單幀情況下的性能,除隨機森林外,所有分類器中單幀設置的測試誤差都略低。這種差異主要是由於在所有基線方法中都存在正則化項的情況下,多幀情況下特征數的增加會帶來負面影響。另一方面,在我們的模型中加入時間動態(隨時間變化的多幀),不斷提高分類性能,這證明了我們的模型在學習依賴時間的變化的有效性。此外,雖然我們的方法不直接對原始腦電圖時間序列進行操作,但通過手動提取腦電圖功率特征,我們大大減少了所需的數據量。此外,發現復雜的時間關系,如使用神經網絡在時間序列中的光譜特性,仍然是一個尚未完全解決的開放問題。ConvNets通過maxpooling實現平移不變性,maxpooling本質上是一個向下采樣過程,雖然這有助於在ConvNet的更深層中創建不變的(空間和頻率方面的)特征圖,但如果特征圖的大小縮小到無法區分區域活動的程度,也可能會損害性能。從某種意義上說,在通過卷積層和maxpooling實現的抽象程度與feature map中保留的細節級別之間存在一種權衡。此外,ConvNets還學習了產生非線性特征圖的濾波器堆棧,從而最大限度地提高分類精度。當對一個包含多個個體的數據池進行訓練時,考慮到訓練集的可變性,網絡會提取出信息量最大的特征。

我們注意到,在單幀設置中,ConvNet+Maxpool的性能低於ConvNet。時態maxpool選擇跨幀的最高激活,而在單幀方法中提取的特征類似於多幀上的平均值。在處理大腦活動時間序列時,在多個時間框架中選擇最大值不一定是最好的做法,因為它可能會忽略某些皮層區域的失活期。在計算所有幀上的平均活動時,仍然可以部分地觀察到這種效應。這也部分解釋了在網絡中加入時間動態模型(1D-conv和LSTM)時分類誤差較低的原因。

 5.3將學到的表征形象化

5.2節中的遞歸卷積網絡通過自動學習腦電圖圖像序列的表示,與所有基線方法相比,分類錯誤率明顯降低。理解這個模型如何實現這樣的性能也同樣重要。將學習過的內核查看為圖像是理解網絡學習過的表示的一種經典方法。然而,在我們的網絡中,由於核的接收場維小(3×3),顯示核並不能給出學習到的表示的太多直覺。我們采用反卷積網絡(deconvnet) (Zeiler et al., 2011;Zeiler & Fergus出版社,2014年;Zeiler等人,2010)通過將特征圖反向傳播到輸入空間來可視化模型的已學習過濾器。Deconvnet迭代逼近前一層的卷積特征,並共同將特定的特征映射投影到輸入空間。這揭示了在輸入空間中激發特定特征圖的結構。為了近似地逆卷積運算,使用濾波器的轉置代替。在每一階段對校正后的映射采用轉置濾波器。Maxpool層通過雙三次插值操作被倒置。我們對所有訓練圖像計算了從每個堆棧的最后一個卷積層(對應於D架構中的卷積層4、6和7)得到的特征圖的反向投影。

一般來說,較低層次的feature map有更廣泛的輸入激活區域,而更深層次的feature map的激活區域變得更稀疏。在許多學習濾波器中也有很強的頻率選擇性。我們發現其中一些特征與眾所周知的認知負荷的電生理標記有明顯的聯系。在神經科學文獻中,前額theta和beta活動以及頂葉alpha是認知/記憶負荷最顯著的標記(Bashivan etal ., 2015;Jensen等人,2002年;Onton等,2005;Tallon-Baudry等,1999)。圖6顯示了從網絡的不同深度選擇的具有清晰神經科學解釋的許多過濾器的后投影圖。

 

圖6:卷積網絡不同深度層次的特征圖及其輸入激活模式的可視化。左邊一列(輸入EEG圖像)顯示了整個訓練集特征激活程度最高的前9幅圖像。中間一列(feature map)顯示了特定核輸出的特征圖。右列(反投影)顯示了在特征圖上應用deconvnet而得到的反投影地圖,該特征圖顯示了在輸入圖像中激發特定特征圖的結構。

 

對於每個過濾器,我們展示了訓練集上9個激活度最高的圖像(所有feature map像素的平均激活度)的輸入圖像、過濾器輸出和反向投影激活。在第一層功能中,我們發現一個功能圖捕獲了廣泛的theta(1ststack輸出內核7)和另一個額葉beta活動(1ststack輸出內核23)。在第二層和第三層特征中,我們觀察到額葉theta / beta(第2堆棧輸出內核7和第3堆棧輸出內核60、112)以及頂壁alpha(第2堆棧輸出內核29)的檢測器,這些檢測器的特征圖的焦點特異性在更深的區域中增加層。盡管在原始輸入圖像中存在很大的相似性,但從不同圖像派生的特征圖之間的相似性仍然很明顯。

6 CONCLUSIONS

這項工作的主要目標是從EEG數據中找到可靠的表示形式,而這些表示形式對於受試者之間和受試者之間的差異以及與EEG數據收集相關的固有噪聲是不變的。我們提出了一種從多通道腦電圖時間序列中學習表征的新穎方法,並在心理負荷分類任務的背景下證明了其優勢。我們的方法與以前嘗試使用深度神經網絡從EEG學習高級表示形式的方法根本不同。

具體來說,我們將數據轉換為一系列保留拓撲的多光譜圖像(EEG“電影”),而不是將低級EEG特征表示為矢量,這與忽略此類空間信息的標准EEG分析技術相反。然后,我們根據最新的視頻分類訓練深度遞歸卷積網絡,以從圖像序列中學習可靠的表示形式,所提出的方法證明了分類精度相對於最新結果的顯着提高。由於我們的方法將EEG數據轉換為EEG圖像序列,因此可以將其應用於使用不同硬件(例如使用不同數量的電極)獲取的EEG數據。我們的方法中使用的預處理步驟將從各種來源獲取的EEG時間序列轉換為可比較的EEG幀。這樣,可以將各種EEG數據集合並在一起。完成此轉換所需的唯一信息將是每種設置的電極空間坐標。作為未來的方向,在使用任務特定的數據訓練網絡之前,可以對較大(或合並)的未標記EEG數據集使用無監督的預訓練方法。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM