深度學習在物理層信號處理中的應用研究


摘要:本文主要介紹基於深度學習的物理層應用,並提出一種基於深度Q網絡(DQN)的MIMO系統位置信息驗證方案,接收者在多變未知的信道環境下利用深度Q網絡不斷更新。

01引言

隨着移動流量呈現的爆發式增長、高可靠性和低時延的通信場景給當前網絡帶來了更大的復雜性和計算挑戰。據IBM報道,移動數據量到2020年將超過40萬億Gbits,比2009年增加44倍,連接總設備量將達到500億。為了滿足這一需求,需要新的通信理論和創新技術來滿足5G系統的需求。近些年深度學習范式的發展使引起了學術界和工業界對基於深度學習的無線通信技術的研究,研究結果證實了深度學習技術可以提高無線通信系統的性能,並有潛力應用在物理層進行干擾調整、信道估計和信號檢測、信號處理等方面。

02深度學習范式

深度學習的概念源於人工神經網絡(ANN)的研究,由Hinton等人於2006年提出。如圖1所示,深度學習通過建立具有階層結構的ANN,往往包含一個輸入層、多個隱藏層和一個輸出層。每個層之間采用不同的權重與鄰層之間進行連接,通過對輸入信息進行逐層提取和篩選,可以實現端到端的監督學習和非監督學習 。深度神經網絡包括前饋神經網絡(FNN)、循環神經網絡(RNN)、卷積神經網絡(CNN)、對抗生成網絡(GAN)和深度信念網絡等。其中基於門控的RNN,例如長短期記憶(LSTM)網絡對於輸入有一定的記憶功能,因此常被用於物理層信號處理和信道狀態信息估計等。此外,深度學習也可參與構建強化學習(RL)系統,形成深度強化學習,例如深度Q網絡(DQN)[1],可以用於對物理層信號處理策略制定的優化。

1)長短期記憶網絡

作為RNN的一個變體,長短期記憶網絡可以有效解決簡單循環神經網絡的梯度爆炸或消失問題。RNN通過隱狀態來存儲歷史信息。在簡單的RNN中,隱狀態的每個時刻都會被重寫,因此可以看作是一種短期記憶。而在LSTM網絡中,記憶單元保存關鍵信息的時間要長於短期記憶。LSTM網絡引入門機制來控制信息傳遞的路徑。門機制取值在0到1之間,來控制信息通過的比例。LSTM網絡主要包括了3個門,其中遺忘門控制上一個時刻的內部狀態需要遺忘多少信息;輸入門控制當前時刻的候選狀態保存多少信息;輸出門控制當前時刻的內部狀態有多少信息需要輸出給外部狀態。

2)深度Q網絡

DQN將CNN與Q學習結合起來,采用Q 學習的目標值函數來構造深度學習的目標函數,利用記憶回放機制來解決數據之間的關聯性問題,並采用迭代更新解決系統穩定性問題。假設環境在時刻所處的狀態為,代理根據一定的策略 來采取動作,並獲得獎勵。然后,環境在時刻轉移到以轉移概率轉移到了下一個狀態。在DQN中,代理通過一系列行動與環境進行交互,目的是最大化累積獎勵。

同時,采用基於卷積神經網絡的經驗回放來進行Q函數的不斷近似。在經驗回放中,代理每一步使用ξ-greedy來選擇動作,並將每個時刻的學習經驗保存在經驗池中。在算法的參數更新循環里,對記憶池里的樣本進行隨機采樣或批量隨機采樣,通過Q學習對模型進行參數更新。並通過CNN來根據之前的經驗,不斷近似最大的Q值。CNN的損失函數就是近似的Q值與真實Q值之間的偏差,通過梯度下降算法不斷調整神經網絡的權重,就可不斷減少損失函數的值。

03 基於深度學習的物理層信號處理應用

近年來,學術界和工業界已經出現了一些深度學習應用於物理層的相關工作,研究結果發表深度學習可以提高物理層性能。本小節從物理層信號處理的角度,從信道狀態信息(CSI)估計、信號編解碼、干擾調整和信號檢測四個方面對目前已有的相關工作進行舉例和說明。

1)基於深度學習的CSI估計

精確的CSI獲取對於保證無線通信系統的鏈路性能至關重要。無線網絡根據信道估計狀態來選擇具體的信號控制方案,例如,當CSI較低時,物理層采用低階調制方案來對抗惡劣的通信狀態從而降低誤碼率。5G通信系統采用多輸入多輸出(MIMO)、毫米波和非正交多址接入(NOMA)等技術,使得通信雙方擁有更多的傳輸信道,信道估計問題也變得更加復雜。傳統的CSI估計方案需要執行具有高復雜度的矩陣運算,受到了計算資源和時延的限制。

利用深度學習來得到CSI信息時空和上下行之間的關聯性,已經被證實可以提高CSI估計的效率,並減少所需上下行參考信息的數據量[2]。如圖2所示,論文[3]提出將歷史CSI數據經過一個二維卷積神經網絡提取頻率特征矢量,再利用一個一維卷積神經網絡來從頻率特征矢量中提取狀態特征矢量。最后,一個LSTM網絡用來進行CSI狀態預測。由於二維卷積神經網絡最初是用來處理圖片數據的,因此,作者將CSI原始數據分割成單元格,每個單元格對應一個圖片像素。每個頻帶的CSI和輔助信息對應的像素組成一個頻道。因此,N個頻帶的數據將被轉換成N個頻道的像素信息,並輸入到學習框架中。

2)基於深度學習的編解碼

深度學習在信源編碼和信道編碼方面的應用,也證明了其可以提高編碼效率並降低網絡的BER。基於深度學習框架的聯合編碼方案可以通過循環神經網絡實現對本文的源編碼(結構化),然后將結構化的信息輸入雙向的LSTM網絡,並最終輸出最終傳輸的二進制數據流。在接收端,LSTM用來進行解碼處理。論文[4]提出了就有全連接深度神經網絡的編碼器,用來提高基於置信傳播算法的HPDC解碼效率。O’Shea等人在[5]中將整個物理層建模為一個包含了調制、信道編碼和信號分類功能的自編碼器,並利用卷積神經網絡來對自編碼器進行訓練。如圖3所示,在多密集層神經網絡的學習框架中,輸入信號被編碼為獨熱編碼(One-hot encoding),無線信道建模為一個噪聲層。交叉熵損失函數和隨機梯度下降算法用來訓練模型,在輸出端將最高概率的輸出信號作為解碼結果。

3)基於深度學習的干擾調整

MIMO系統中的干擾調整通過線性預編碼技術來調整發射信號,使得接收端的干擾信號可以控制在一個降維子空間里,從而突破MIMO系統干擾問題帶來的吞吐量限制。現有工作中已經有研究結果表明,利用深度學習可以提高干擾調整網絡中的吞吐量,並取得優化結果。He等人在[6]中提出了采用DQN來獲得干擾調整下最優的用戶選擇策略。在該機制中,中央調度器用來收集所有信道狀態和每個用戶的緩存狀態,並將信道資源分配給每個用戶。信道的時變過程用一個有限狀態馬爾科夫模型來進行建模,系統的狀態定義為每個用戶的信道狀態和緩存狀況。中央調度器用來為系統訓練處最佳策略,對應的系統動作定義為是否為每個用戶分配信道資源來進行數據的傳輸,來最大化干擾調整網絡的吞吐量。DQN也可被用於認知無線電網絡中次用戶與主用戶之間的干擾消除,次用戶利用跳頻和移動性來抵御干擾者[7]。

4)基於深度學習的信號檢測

基於DL的檢測算法可以顯著提高通信系統的性能,尤其適當傳統的處理模塊需要聯合優化或是信道無法用常見的分析模型來表征時。論文[8]提出了一個五層全連接的DNN框架嵌入到OFDM接收器中來進行聯合信道估計和信號檢測。將接收到的信號以及對應的傳輸數據和導頻作為輸入,DNN可以推斷出信道信息,而且可以用來預測發送的數據。在MIMO中檢測中,基於貝葉斯最優檢測器的迭代方法已經被證實有較優的性能和中等的計算復雜度。但在很多更復雜的環境下,未知的信道分布條件將限制這種檢測器的效果。利用深度學習算法,可以根據一定的輸入數據來恢復模型參數,從而提高檢測器的自適應能力。同時,在一些情況下,深度學習算法還可以利用一些語義信息,例如接收器的位置和周圍車輛節點的信息,來進行波束預測,從而提高系統性能。

04 基於DQN的信號檢測機制

在基於位置服務的場景中,車輛或者用戶需要不斷發送信標消息來報告自己的位置,從而提高位置服務和網絡性能。但有些車輛或用戶會選擇發送虛假的位置來獲取更多的資源,影響了網絡服務的效用。

在MIMO系統中,傳輸信號往往包含了豐富的信息(到達角、接收功率等)可以在接收端利用信號檢測技術對信標消息進行位置驗證。我們提出基於DQN的信號檢測機制,可以用於MIMO系統中發送者的位置信息驗證和對信息偽造者的檢測。主要的思想為,接收端對接收的信號采用最大似然估計進行假設檢驗,當接收到的信號通過檢測檢驗時,則認為發送信號來自於發送者上報的位置。否則,認為發送者上報了虛假的位置信息。為了提高在多變的信道狀態下的檢測性能,在接收端基於DQN來預測采用不同的檢測閾值可以取得的收益,並選取最優的檢測閾值。系統框架如圖4所示。

1)系統模型 假設檢驗中的零假設定為發送節點上報真實位置信息,備擇假設為發送節點上報了虛假位置信息。在每個時刻,接收端收到發送端的信號都與發送端與接收端之間的真實位置、信道狀態和信號到達角有關。在已知發送信息和發送功率的條件下,接收端可以利用最大似然檢測來對接收到的信號進行假設檢驗。

2)最大似然檢測 接收端采用最大似然檢測算法來驗證接收到的信號,檢測規則定義為:

其中代表檢測閾值,取值范圍為。和代表檢測結果分別為正常和虛假上報。和分別為觀測信號在零假設和備擇假設下的后驗分布。根據[9]可得,假設檢驗的結果(誤報率和丟失率)與發送者的實際位置、上報位置、信道狀況和檢測閾值有關。對於接收端來說,發送者的實際位置、上報位置以及信道狀態屬於未知或部分已知的環境變量,在與發送者之間不斷的信息交互過程中,本文提出接收端可以基於DQN來不斷優化檢測閾值的選擇,從而提高信號檢測的准確率。

3)基於DQN的檢測閾值優化

在本文提出的機制中,將接收端的狀態空間分為兩個維度,第一個維度是發送端到接收端的信道狀態,第二個維度是信道檢測的結果。信道狀態空間包括量化后的一系列信道指標,並假設信道的狀態轉移符合馬爾科夫過程,即信道在當前時刻的狀態都只與上一個時刻的狀態有關。結果狀態空間包括四種:真實數據檢測結果為真、真實數據檢測結果為假;虛假數據檢測結果為真以及虛假數據檢測結果為假。在每次動作過程中,接收端的直接獎勵與檢測結果有關,當檢測結果正確時獲得正收益,當檢測結果錯誤時獲得負收益。接收端的動作定義為進行信號檢測的閾值,動作空間包括一系列量化的檢測閾值。在每個片刻,接收端的混合策略為選擇不同檢測閾值的概率。基於本文第二章介紹的DQN原理,接收端在每次經歷后,將自己選擇的檢驗閾值、對應的狀態結果和收益存儲到經驗池,利用CNN對Q函數進行訓練預測,不斷優化對檢測閾值的選擇。

05 總結與未來發展建議

在本文中,我們通過現有工作和案例證明了深度學習在物理層通信中的巨大應用潛力。除了以上介紹的幾種應用方向,深度學習在端到端通信系統中也得到了一定的應用。不過,目前還尚未有結論基於深度學習的端到端通信系統性能是否會最終超過傳統通信系統性能。另外,基於深度學習的物理層應用需要數據驅動,為了提高深度學習模型的訓練效率,可以將需要長時間訓練的模塊進行融合,並需要考慮在良好的性能和訓練效率之間的權衡。深度學習應用的興起主要歸功於各種可用的數據集,但目前用於無線通信相關的數據集仍然較少。數據的安全和隱私問題進一步限制了在真實世界對通信數據的訪問功能。但為了基於深度學習的通信應用,需要一些開放性電信數據集的發布和共享。最后,5G復雜多變的通信環境,包括MIMO、毫米波通信以及NOMA技術等,也為深度學習的應用帶來了巨大的潛力。

參考文獻

[1] Mnih, Volodymyr, et al. "Human-levelcontrol through deep reinforcement learning." Nature 518.7540(2015): 529. https://www.nature.com/articles/nature14236.

[2] A. Mousavi and R. G. Baraniuk, “Learning toInvert: Signal Recovery via Deep Convolutional Networks,” Proc. IEEE Int’l.Conf. Acoustics Speech Signal Process. (ICASSP’17), New Orleans, LA, Mar. 2017,pp. 2272–76.

[3] C. Luo, J. Ji, Q. Wang, X. Chen and P. Li,"Channel State Information Prediction for 5G Wireless Communications: ADeep Learning Approach," in IEEE Transactions on Network Science andEngineering, early access.

[4] E. Nachmani, Y. Be’ery, and D. Burshtein,“Learning to decode linear codes using deep learning,” in Proc. Communication,Control, and Computing (Allerton), 2016, pp. 341–346.

[5] T. O’Shea and J. Hoydis, "An Introduction to Deep Learning for thePhysical Layer," in IEEE Transactions on Cognitive Communications andNetworking, vol. 3, no. 4, pp. 563-575, Dec. 2017.

[6] Y. He, C. Liang, F. R. Yu, N. Zhao, and H.Yin, “Optimization of cache-enabled opportunistic interference alignmentwireless networks: A big data deep reinforcement learning approach,” in Proc.IEEE Int. Conf. Commun. (ICC), May 2017, pp. 1–6.

[7] G. Han, L. Xiao, and H. V. Poor,“Two-dimensional anti-jamming communication based on deep reinforcementlearning,” in Proc. IEEE Int. Conf. Acoust. Speech Signal Process. (ICASSP),New Orleans, USA, Mar. 2017, pp. 2087–2091.

[8] H. Ye, G. Y. Li, and B.-H. F. Juang, “Power ofDeep Learning for Channel Estimation and Signal Detection in OFDM Systems,”IEEE Wireless Commun. Lett., vol. 7, no. 1, Feb. 2018, pp. 114–17.

[9] Bai, Lin, Jinho Choi, and Quan Yu. “SignalProcessing at Receivers: Detection Theory.” Low Complexity MIMO Receivers,Springer, Cham, 2014. pp.5-28.

本文分享自華為雲社區《深度學習在物理層信號處理中的應用研究》,原文作者:就挺突然 。

 

點擊關注,第一時間了解華為雲新鮮技術~


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM