轉自:https://blog.csdn.net/ic_soc_arm_robin/article/details/8203933
在項目驅動過程中會經常用到dma傳輸數據,而dma需要的內存有自己的特點,一般認為需要物理地址連續,並且內存是不可cache的,在linux內核中提供一個供dma所需內存的申請函數dma_alloc_coherent. 如下所述:
dma_alloc_coherent()
dma_alloc_coherent() -- 獲取物理頁,並將該物理頁的總線地址保存於dma_handle,返回該物理頁的虛擬地址
DMA映射建立了一個新的結構類型---------dma_addr_t來表示總線地址。dma_addr_t類型的變量對驅動程序是不透明的;唯一允許的操作是將它們傳遞給DMA支持例程以及設備本身。作為一個總線地址,如果CPU直接使用了dma_addr_t,將會導致發生不可預期的后果!
一致性DMA映射存在與驅動程序的生命周期中,它的緩沖區必須可同時被CPU和外圍設備訪問!因此一致性映射必須保存在一致性緩存中。建立和使用一致性映射的開銷是很大的!
(以上紅色文字摘錄在LDD3)
void *
dma_alloc_coherent(struct device *dev, size_t size,
dma_addr_t *dma_handle, gfp_t gfp)
{
void *ret;
if (!dev || *dev->dma_mask >= 0xffffffffUL)
gfp &= ~GFP_DMA;
ret = (void *)__get_free_pages(gfp, get_order(size)); //(1)
if (ret) {
memset(ret, 0, size);
*dma_handle = virt_to_bus(ret); //(2)
}
return ret;
}
(1) 將size轉換成order, 即2^order
(2) 將虛擬地址ret轉換成總線地址
這個函數是一個平台相關的函數,以上是在x86平台的實現細節,從這里我們可以看到該函數返回值為linux 內核線性地址,所以對於驅動開發過程的mmap函數實現提供了便利。
但是在powerpc平台卻不是這樣,筆者就曾經遇到在將pci驅動從x86平台移植到powerpc平台時出現問題。
首先我們來先看一下兩個平台對於dma內存的處理。
x86:
linux內存區域分為DMA區域,Normal內存區域與高端內存區域,高端內存區域為當物理內存高於768M時使用,一般DMA區域為16M,這段空間由操作系統預留。DMA區域與Normal區域全部使用線性映射,采用邏輯地址使用,高端內存使用內核虛擬地址。其中內核空間的分部為:
物理區--8M隔離--vmalloc區--8k隔離--4M的高端映射區--固定映射區--128k
powerpc:
本節采用freescale的mpc5121芯片為例,內核沒有采用Normal內存區域,只使用ZONE_DMA和ZONE_HIMEM兩種類型的空間,其中ZONE_DMA存放低端內存, ZONE_HIMEN存放高端內存,整個內存不在采用邏輯地址這一概念。所以基於邏輯地址的操作沒有可移植性。
下面看下具體的區別:
void * __dma_alloc_coherent(size_t size, dma_addr_t *handle, gfp_t gfp)
{
//物理空間頁的申請
page = alloc_pages(gfp, order);
//對物理空間進行清零cache
{
unsigned long kaddr = (unsigned long)page_address(page);
memset(page_address(page), 0, size);
flush_dcache_range(kaddr, kaddr + size);
}
//申請虛擬空間
c = vm_region_alloc(&consistent_head, size, gfp &
~(__GFP_DMA | __GFP_HIGHMEM));
//實現虛擬地址與物理地址映射
if (c) {
unsigned long vaddr = c->vm_start;
pte_t *pte = consistent_pte + CONSISTENT_OFFSET(vaddr);
struct page *end = page + (1 << order);
split_page(page, order);
/*
* Set the \"dma handle\"
*/
*handle = page_to_bus(page);
do {
BUG_ON(!pte_none(*pte));
SetPageReserved(page);
set_pte_at(&init_mm, vaddr,
pte, mk_pte(page, pgprot_noncached(PAGE_KERNEL)));
page++;
pte++;
vaddr += PAGE_SIZE;
} while (size -= PAGE_SIZE);
// 返回值為內核虛擬地址。
return (void *)c->vm_start
每個外設都是通過讀寫它的寄存器來控制. 大部分時間一個設備有幾個寄存器, 並且在連續地址存取它們, 或者在內存地址空間或者在 I/O 地址空間.
在硬件級別上, 內存區和 I/O 區域沒有概念上的區別: 它們都是通過在地址總線和控制總線上發出電信號來存取(即, 讀寫信號)[32]並且讀自或者寫到數據總線.
但是一些 CPU 制造商在他們的芯片上實現了一個單個地址空間, 有人認為外設不同於內存, 因此, 應該有一個分開的地址空間. 一些處理器(最有名的是 x86 家族)有分開的讀和寫電線給 I/O 端口和特殊的 CPU 指令來存取端口.
因為外設被建立來適合一個外設總線, 並且大部分流行的 I/O 總線成型在個人計算機上, 即便那些沒有單獨地址空間給 I/O 端口的處理器, 也必須在存取一些特殊設備時偽裝讀寫端口, 常常利用外部的芯片組或者 CPU 核的額外電路. 后一個方法在用在嵌入式應用的小處理器中常見.
由於同樣的理由, Linux 在所有它運行的計算機平台上實現了 I/O 端口的概念, 甚至在那些 CPU 實現一個單個地址空間的平台上. 端口存取的實現有時依賴特殊的主機制造和型號( 因為不同的型號使用不同的芯片組來映射總線傳送到內存地址空間).
即便外設總線有一個單獨的地址空間給 I/O 端口, 不是所有的設備映射它們的寄存器到 I/O 端口. 雖然對於 ISA 外設板使用 I/O 端口是普遍的, 大部分 PCI 設備映射寄存器到一個內存地址區. 這種 I/O 內存方法通常是首選的, 因為它不需要使用特殊目的處理器指令; CPU 核存取內存更加有效, 並且編譯器當存取內存時有更多自由在寄存器分配和尋址模式的選擇上.
不管硬件寄存器和內存之間的強相似性, 存取 I/O 寄存器的程序員必須小心避免被 CPU(或者編譯器)優化所戲弄, 它可能修改希望的 I/O 行為.
I/O 寄存器和 RAM 的主要不同是 I/O 操作有邊際效果, 而內存操作沒有: 一個內存寫的唯一效果是存儲一個值到一個位置, 並且一個內存讀返回最近寫到那里的值. 因為內存存取速度對 CPU 性能是至關重要的, 這種無邊際效果的情況已被多種方式優化: 值被緩存, 並且 讀/寫指令被重編排.
編譯器能夠緩存數據值到 CPU 寄存器而不寫到內存, 並且即便它存儲它們, 讀和寫操作都能夠在緩沖內存中進行而不接觸物理 RAM. 重編排也可能在編譯器級別和在硬件級別都發生: 常常一個指令序列能夠執行得更快, 如果它以不同於在程序文本中出現的順序來執行, 例如, 為避免在 RISC 流水線中的互鎖. 在CISC 處理器, 要花費相當數量時間的操作能夠和其他的並發執行, 更快的.
當應用於傳統內存時(至少在單處理器系統)這些優化是透明和有益的, 但是它們可能對正確的 I/O 操作是致命的, 因為它們干擾了那些"邊際效果", 這是主要的原因為什么一個驅動存取 I/O 寄存器. 處理器無法預見這種情形, 一些其他的操作(在一個獨立處理器上運行, 或者發生在一個 I/O 控制器的事情)依賴內存存取的順序. 編譯器或者 CPU 可能只盡力勝過你並且重編排你請求的操作; 結果可能是奇怪的錯誤而非常難於調試. 因此, 一個驅動必須確保沒有進行緩沖並且在存取寄存器時沒有發生讀或寫的重編排.
硬件緩沖的問題是最易面對的:底層的硬件已經配置(或者自動地或者通過 Linux 初始化代碼)成禁止任何硬件緩沖, 當存取 I/O 區時(不管它們是內存還是端口區域).
對編譯器優化和硬件重編排的解決方法是安放一個內存屏障在必須以一個特殊順序對硬件(或者另一個處理器)可見的操作之間. Linux 提供 4 個宏來應對可能的排序需要:
- #include <linux/kernel.h>
- void barrier(void)
-
這個函數告知編譯器插入一個內存屏障但是對硬件沒有影響. 編譯的代碼將所有的當前改變的並且駐留在 CPU 寄存器的值存儲到內存, 並且后來重新讀取它們當需要時. 對屏障的調用阻止編譯器跨越屏障的優化, 而留給硬件自由做它的重編排.
- #include <asm/system.h>
- void rmb(void);
- void read_barrier_depends(void);
- void wmb(void);
- void mb(void);
-
這些函數插入硬件內存屏障在編譯的指令流中; 它們的實際實例是平台相關的. 一個 rmb ( read memory barrier) 保證任何出現於屏障前的讀在執行任何后續讀之前完成. wmb 保證寫操作中的順序, 並且 mb 指令都保證. 每個這些指令是一個屏障的超集.
read_barrier_depends 是讀屏障的一個特殊的, 弱些的形式. 而 rmb 阻止所有跨越屏障的讀的重編排, read_barrier_depends 只阻止依賴來自其他讀的數據的讀的重編排. 區別是微小的, 並且它不在所有體系中存在. 除非你確切地理解做什么, 並且你有理由相信, 一個完整的讀屏障確實是一個過度地性能開銷, 你可能應當堅持使用 rmb.
表4.27 隔離指令
指令名
功能描述
DMB
數據存儲器隔離。DMB 指令保證: 僅當所有在它前面的存儲器訪問操作
都執行完畢后,才提交(commit)在它后面的存儲器訪問操作。
DSB
數據同步隔離。比 DMB 嚴格: 僅當所有在它前面的存儲器訪問操作
都執行完畢后,才執行在它后面的指令(亦即任何指令都要等待存儲器訪 問操作——譯者注)
ISB
指令同步隔離。最嚴格:它會清洗流水線,以保證所有它前面的指令都執
行完畢之后,才執行它后面的指令。
-
- void smp_rmb(void);
- void smp_read_barrier_depends(void);
- void smp_wmb(void);
- void smp_mb(void);
-
屏障的這些版本僅當內核為 SMP 系統編譯時插入硬件屏障; 否則, 它們都擴展為一個簡單的屏障調用.
在一個設備驅動中一個典型的內存屏障的用法可能有這樣的形式:
writel(dev->registers.addr, io_destination_address); writel(dev->registers.size, io_size); writel(dev->registers.operation, DEV_READ); wmb(); writel(dev->registers.control, DEV_GO);
在這種情況, 是重要的, 確保所有的控制一個特殊操作的設備寄存器在告訴它開始前已被正確設置. 內存屏障強制寫以需要的順序完成.
因為內存屏障影響性能, 它們應當只用在確實需要它們的地方. 屏障的不同類型也有不同的性能特性, 因此值得使用最特定的可能類型. 例如, 在 x86 體系上, wmb() 目前什么都不做, 因為寫到處理器外不被重編排. 但是, 讀被重編排, 因此 mb() 被 wmb() 慢.
值得注意大部分的其他的處理同步的內核原語, 例如自旋鎖和原子的 _t 操作, 如同內存屏障一樣是函數. 還值得注意的是一些外設總線(例如 PCI 總線)有它們自己的緩沖問題; 我們在以后章節遇到時討論它們.
一些體系允許一個賦值和一個內存屏障的有效組合. 內核提供了幾個宏來完成這個組合; 在缺省情況下, 它們如下定義:
#define set_mb(var, value) do {var = value; mb();} while 0 #define set_wmb(var, value) do {var = value; wmb();} while 0 #define set_rmb(var, value) do {var = value; rmb();} while 0
在合適的地方, <asm/system.h> 定義這些宏來使用體系特定的指令來很快完成任務. 注意 set_rmb 只在少量體系上定義. (一個 do...while 結構的使用是一個標准 C 用語, 來使被擴展的宏作為一個正常的 C 語句可在所有上下文中工作).