TI C64x+ DSP CACHE 一致性分析與維護
作者:德州儀器 DSP 技術應用工程師 宋洋 摘要在各種數字信號處理系統中,CACHE被廣泛用於彌補Core與存儲器之間的速度差異。在CACHE的使用過程中,存在不同類型存儲器之間數據是否一致的問題。本文着重分析TI高性能C64x+ DSP系列中各級CACHE之間數據一致性問題以及如何進行一致性維護。 1. 概述CACHE作為Core和低速存儲器之間的橋梁,基於代碼和數據的時間和空間相關性,以塊為單位由硬件控制器自動加載Core所需要的代碼和數據。如果所有程序和數據的存取都由Core完成,基於CACHE的運行機制,Core始終能夠得到存儲器中最新的數據。但是當有其它可以更改存儲器內容的部件存在時,例如不需要Core干預的直接數據存取(DMA)引擎,就可能出現由於CACHE的存在而導致Core或者DMA不能夠得到最新數據的現象,也就是CACHE一致性的問題。 2. C64x+ 存儲器組織結構TI對高性能C64x核進行了改進,使其性能大大提升,稱之為C64x+DSP核。基於C64x+核開發的DSP芯片,所有部件都以交換網絡(SCR)為核心連接起來。SCR上的部件分為兩類:Master和Slave。Master包括Core、EDMA以及串行高速IO(sRIO),EMAC等外設。Master可以直接通過SCR發起到Slave的數據傳輸。Slave包括每一個Core的內存,DDR2外存以及其它不能直接發起數據傳輸的外設,Slave之間的數據傳輸,需要通過DMA協助完成。各款基於C64x+DSP的數據手冊上詳細描述了SCR的配置和Master、Slave的情況。 C64x+系統的存儲器框圖如圖 1所示。存儲器被分成了三級:第一級是L1,包含數據存儲器(L1D)和代碼存儲器(L1P);第二級是代碼和數據共用存儲器(L2);第三級是外部存儲器,主要是DDR2存儲器。L1P、L1D和L2的CACHE功能分別由相應的L1P控制器、L1D控制器和L2控制器完成。表 1總結了C64x+平台上可用的CACHE情況。 圖 1 C64x+存儲器框圖 表 1 C64x+ CACHE特性
C64x+平台上L1P用來存儲或者緩存代碼;L1D用來存儲或者緩存數據。L1P和L1D大小都是32K字節,可以分別配置0K、4KB、8KB、16KB或者32KB作為CACHE,其余作為代碼或者數據RAM。作為CACHE的部分,用來緩存L2和DDR2的數據或代碼。作為RAM的部分,可以存儲關鍵的代碼或者數據使得Core能夠以很高的速度 C64x+平台上L2 存儲器可用於存儲代碼和數據。L2上最大可以分配256K字節CACHE來緩存DDR2中的數據或代碼。L2中其余部分作為RAM存儲代碼和數據。 圖 2描述了Core訪問存儲器內容的操作流程。在這個訪問流程中,Core對於存儲器的訪問總是先從離Core最近的一級存儲器開始,如果命中,Core可以直接得到代碼/數據,否則代碼/數據會被加載到前幾級的CACHE中,從而Core可以得到要處理的代碼/數據。在這個動態訪問過程中,各級CACHE中的內容和下一級存儲器中的內容可能存在不一致,這種瞬態的不一致不會造成問題。但是,如果Core或者其它Master不能得到另外一方對存儲器內容更新后的內容,就會出現CACHE一致性問題。 圖 2 Core訪問存儲器流程 3. CACHE一致性問題分析在任何時刻,Core或者其它Master訪問存儲器中數據時,由於CACHE的存在造成不能夠得到最近更新過的數據,就會出現CACHE一致性問題。 在一個特定的時間范圍內,各級CACHE和它的下一級存儲器中的內容不一致是正常的。因為CACHE的作用是在一段時間內將低速存儲器中的內容自動搬運到高速的CACHE中重復使用。當CACHE中的空間被后續的數據占用的時候,才將CACHE中的內容進行失效或者回寫的操作。在失效或者回寫之前,CACHE中的內容可能與物理存儲器中的內容是不一致的。這種臨時性的不一致是正常的,上述CACHE一致性問題的描述不包含此類正常情況。 CACHE的引入是為了提高Core存取數據的效率,所以出現CACHE一致性問題一定與Core對存儲器的訪問有關。Core對存儲器的訪問分為兩類: 據此,CACHE的一致性問題分為兩個大類:Core讀一致性問題和Core寫一致性問題。在下面兩個小節中,分別描述了這兩種情況的模型: 3.1 Core讀一致性模型圖 3給出了Core讀一致性的模型。在這個模型中,CACHE一致性問題的存在取決於圖中虛線箭頭指示的第二步操作能否在Core從CACHE中重新讀數據之前完成。如果不能,則會造成Core讀取的數據不是其它Master更新后的數據,而是原來CACHE中的內容,從而導致一致性的問題。 圖 3 Core讀一致性模型 L1P CACHE對L2內存或者DDR2外存中的代碼進行緩存。當Core第一次對L2或者DDR2中的代碼進行讀操作的時候,由於代碼不在L1P CACHE中,CAHCE硬件會將L2或者DDR2中的代碼讀到L1P CACHE中。Core可以得到最新的代碼,不存在一致性的問題。此后,如果其它Master更新L2或者DDR2中的代碼,然后Core再次讀取此部分代碼時,會發現相應的代碼已經存在L1P CACHE中,此時Core會直接從L1P CACHE中讀取代碼。由於Core不能得到最新的代碼,就出現了Core讀一致性的問題。 L1D Core讀一致性問題的原理和L1P相同,只是L1D緩存的是L2或者DDR2中的數據。 L2 CACHE對DDR2中的代碼/數據進行緩存,當Core第一次對DDR2中的代碼/數據進行讀操作,這時代碼/數據不在L2 CACHE中,需要進行L2 CACHE的加載,Core可以得到最新的代碼/數據。之后,其它Master對DDR2中的代碼/數據進行更改,Core重讀此部分代碼/數據的時候,Core讀到的是L2 CACHE中的內容而不是DDR2中最新的代碼/數據,因此也存在Core讀一致性的問題。 3.2 Core寫一致性模型圖 4給出了Core寫一致性的模型。在這個模型中,CACHE一致性問題的存在取決於圖中虛線箭頭指示的第二步操作能否在其它Master從存儲器中讀數據之前完成。如果不能,會造成其它Master從存儲器中讀到的數據是原來的數據而不是Core更新過的數據,從而導致一致性的問題。 圖 4 Core寫一致性模型 當Core對L2或者DDR2中的代碼/數據進行寫操作的時候,如果代碼/數據已經在L1 CACHE中,新的代碼/數據會被更新到L1 CACHE中。當其它Master從L2或者DDR2中讀代碼/數據的時候,會直接從L2或者DDR2中讀取相應的內容,如果L1 CACHE中新的代碼/數據未被更新到L2或者DDR2中,則其它Master讀取的不是更新后的內容,就會出現Core寫一致性的問題。 同樣,Core更新過的代碼/數據有可能只是緩存在L2 CACHE中,其它Master從DDR2中讀取的內容不是更新后的內容,同樣會出現Core寫一致性的問題。 3.3 C64x+一致性分析在C64x+上的CACHE一致性問題,需要根據放置代碼/數據的相應位置進行分析。由於在C64x+平台上,L1P、L1D和L2內存既可以作為CACHE又可以作為存儲器使用,因此,在分析一致性問題的時候,需要考慮以下幾種情況 Case1. 代碼在L1P存儲器中; 對於Case1,由於代碼直接在L1P存儲器中,不需要進行CACHE,所以不會存在一致性的問題。 對於Case2和Case3,涉及到L1P CACHE,存在代碼的更新能否被Core讀到的問題。代碼的更新分成兩種情況:一是Core在運行過程中對代碼進行修改;二是其它Master對代碼的修改。這兩種情況下,都會存在CACHE讀一致性問題,需要由軟件來維護。 對於Case4,數據直接在L1D存儲器中, Core始終能夠讀到其它Master更新到L1D內存中的內容,Core寫過的數據也能夠被其它Master直接從L1D內存中讀到。所以不會存在一致性的問題。 對於Case5,數據在L2存儲器,按照上面的分析,會存在CACHE讀和寫一致性的問題。在C64x+平台上這種情況下的一致性問題會由硬件自動維護。 對於Case6,也會存在CACHE讀和寫一致性的問題,這種情況需要軟件進行CACHE一致性的維護。 4. C64x+ CACHE一致性維護操作出現CACHE一致性問題時,為了保證Core或者其它Master在進行數據操作的時候能夠得到最新的數據,需要進行CACHE的一致性維護操作。CACHE一致性問題維護在設計中,有兩種處理方式:硬件自動維護和應用程序進行維護。 下面具體分析以上幾種情況在C64x+平台上如何進行CACHE一致性問題處理: 4.1 硬件維護的CACHE一致性在C64x+平台上,硬件會對Case5的情況自動進行數據一致性維護。分析需要分為讀寫兩類操作進行,圖 5和圖 6分別描述了Core對L2上的數據進行讀和寫的情況。 圖 5 Core讀L2數據的情況 圖 6 Core寫L2數據的情況 其它Master要對L2中的內容進行更新操作時,L2控制器會根據被更新數據的地址判斷相應的地址是否在L1D CACHE中,如果在L1D CACHE中,硬件會自動將更新的數據拷貝一份到L1D CACHE中。當Core重新對L2中的這部分數據進行處理的時候,如果要讀取的數據已經在L1D CACHE中,Core可以直接從L1D CACHE中得到更新過的數據。如果要讀取的數據不在L1D CACHE中,L1D控制器會自動從L2加載數據,Core也可以得到更新后的數據。過程如圖 5中的1和2所示,這樣就可以解決一致性的問題 其它Master要對L2中的內容進行讀操作的時候,L2控制器會判斷要讀取的數據地址是否在L1D CACHE中,對於在L1D CACHE中的數據,硬件會自動從L1D CACHE中讀取最新的數據。對於不在L1D CACHE中的數據,說明L2中的數據已經是最新的數據,可以直接從L2中讀取。通過這樣的處理,可以保證其它Master讀到Core更新后的數據,從而可以解決一致性的問題。過程如圖 6中的1和2所示。 4.2 軟件維護的CACHE一致性在C64x+平台上,Case2、Case3和Case6的情況需要軟件進行的一致性維護操作以保證Core或者其它Master可以得到最新的數據。 4.2.1 C64x+軟件一致性維護實現C64x+平台上由軟件控制的一致性維護操作包含三種:CACHE數據失效、CACHE數據回寫和CACHE數據回寫並失效。啟動維護操作需要配置相應的基地址和計數寄存器,當計數寄存器中的值變為0時表示操作完成。TI提供的芯片支持庫中也提供了相應的API來完成相應的功能。各種操作涉及的各級CACHE的一致性操作控制寄存器列在表 2中。
表 2 C64x+ CACHE一致性維護寄存器
例如,需要對L2 CACHE進行部分回寫操作,需要將回寫的DDR2的地址配置到L2WBAR,同時將需要回寫的數據32-bit長度寫到L2的計數寄存器L2WWC中,當L2WWC中的值變為0之后,表示回寫操作已經完成。 4.2.2 代碼CACHE一致性圖 7中描述了其它Master對L2中代碼進行修改的情況。這種情況下,當Core第一次執行此部分代碼時,這部分代碼會被加載到L1P中。之后如果被其它Master修改,Core仍會從L1P中讀取原來的代碼而不是更新后的代碼。因此需要軟件進行圖中2指示的操作。軟件不需要進行代碼的搬移,只要在Core重新執行此部分代碼之前將L1P中此部分內容失效。當Core再次執行此部分代碼的時候,會按照CACHE的正常機制進行此部分代碼的重新加載,從而保證Core可以讀取到更新后的代碼。操作順序如下:
圖 8描述的是其它Master對DDR2中代碼進行修改的情況。這種情況下,需要在Core重新執行此部分代碼前,將L1P和L2 CACHE中的相應內容進行失效以保證Core執行時可以將最新的代碼加載到L2和L1P CACHE中。操作順序如下
圖 7 其它Master修改L2代碼的情況 圖 8 其它Master修改DDR2代碼的情況 Core對修改代碼會轉換為對存儲器的寫操作,由於L1D只對讀不命中的情況才分配CACHE,所操作的代碼一定不在L1D CACHE中,更新的代碼會被直接寫到L2中,如果修改的是DDR2中的代碼,數據可能會被更新到L2 CACHE中。之后的所有操作與上述兩種情況的處理相同 4.2.3 數據CACHE一致性對於數據部分的一致性維護,需要由軟件維護的情況是Case6。包括Core對DDR2的讀取和寫兩種情況。圖 9和圖 10分別描述了這兩種情況。 圖 9描述的是Core讀取DDR2中數據進行處理的情況。當其它Master對此部分數據進行更新之后,在Core重新讀取之前,為了保證DDR2中的數據會被重新加載到L1D和L2中,需要將L1D和L2 CACHE中與此部分數據對應的內容失效。操作順序如下:
>圖 9 Core對DDR2上的數據讀的情況> 圖 10描述了Core對DDR2中數據更新的情況,更新的數據可能被保存在L1D 或者L2 CACHE中。為了保證其它Master能正確讀取此部分數據,需要將L1D或者L2 CACHE中更新的此部分數據回寫到DDR2。操作順序如下:
圖 10 Core對DDR2上的數據寫的情況 結論CACHE一致性問題是DSP應用中常見的問題,TI C64x+ DSP是業界高性能信號處理平台,具有優良的CACHE性能。C64x+平台CACHE一致性問題的維護操作情況總結如下: 表 3 C64x+平台CACHE一致性問題的維護操作
C64x+平台上CACHE一致性問題維護可以歸納為以下兩點:
|