Date: 2018.8.21
1、參考
https://developer.arm.com/products/architecture/instruction-sets
https://developer.arm.com/docs/ddi0487/a
2、ARM64位架構分析
ARM64位采用ARMv8架構,64位操作長度,對應處理器有Cortex-A53、Cortex-A57、Cortex-A73、iphones的A7和A8等。
AARCH64是全新32位固定長度指令集,支持64位操作數的新指令,大多數指令可以具有32位或64位參數。
ARM64位架構有兩種主要的執行狀態:
- AArch64 ——64 位執行狀態,包括該狀態的異常模型、內存模型、程序員模型和指令集支持
- AArch32 ——32 位執行狀態,包括該狀態的異常模型、內存模型、程序員模型和指令集支持
這些執行狀態支持三個主要指令集:
- A32(或 ARM):32 位固定長度指令集,通過不同架構變體增強部分 32 位架構執行環境現在稱為 AArch32。
- T32 (Thumb) 是以 16 位固定長度指令集的形式引入的,隨后在引入 Thumb-2 技術時增強為 16 位和 32 位混合長度指令集。部分 32 位架構執行環境現在稱為 AArch32。
- A64:提供與 ARM 和 Thumb 指令集類似功能的 32 位固定長度指令集。隨 ARMv8-A 一起引入,它是一種 全新的AArch64 指令集。
ARM ISA 不斷改進,以滿足前沿應用程序開發人員日益增長的要求,同時保留了必要的向后兼容性,以保護軟件開發投資。在 ARMv8-A 中,對 A32 和 T32 進行了一些增補,以保持與 A64 指令集一致。
3、ARM64位寄存器
主要包括64位下的ARM寄存器和NEON寄存器。
ARM架構64位寄存器:
31個通用寄存器X0~X30,以及SP(x31)和PC,共33個。其中W0~W31分別是X0~X31的低32位,如下圖所示:
64位下通用寄存器關系圖
ARM64位參數調用規則遵循AAPCS64,規定堆棧為滿遞減堆棧。
寄存器調用規則如下:
- X0~X7:用於傳遞子程序參數和結果,使用時不需要保存,多余參數采用堆棧傳遞,64位返回結果采用X0表示,128位返回結果采用X1:X0表示。
- X8:用於保存子程序返回地址, 盡量不要使用 。
- X9~X15:臨時寄存器,使用時不需要保存。
- X16~X17:子程序內部調用寄存器,使用時不需要保存,盡量不要使用。
- X18:平台寄存器,它的使用與平台相關,盡量不要使用。
- X19~X28:臨時寄存器,使用時必須保存。
- X29:幀指針寄存器,用於連接棧幀,使用時需要保存。
- X30:鏈接寄存器LR
- X31:堆棧指針寄存器SP或零寄存器ZXR
注意:
子程序調用時必須要保存的寄存器:X19~X29和SP(X31)。
不需要保存的寄存器:X0~X7,X9~X15
64位下NEON寄存器:
- 32個B寄存器(B0~B31),8bit
- 32個H寄存器(H0~H31),半字 16bit
- 32個S寄存器(S0~S31),單子 32bit
- 32個D寄存器(D0~D31),雙字 64bit
- 32個Q寄存器(V0~V31),四字 128bit
不同位數下寄存器之間的關系如下圖所示:
其中S0是D0的低半部分,D0是V0的低半部分 。
注意:
64位下NEON寄存器與32位下NEON寄存器之間的關系不同!
neon寄存器 v0~v31使用說明:
v0~v7:用於參數傳遞和返回值,子程序不需要保存;
v8~v15:子程序調用時必須入棧保存(低64位);
v16~v31:子程序使用時不需要保存。
具體可參考:
http://infocenter.arm.com/help/topic/com.arm.doc.ihi0055b/IHI0055B_aapcs64.pdf 5.1.2 SIMD and Floating-Point Registers
4、ARM64位指令集A64以及參考手冊
ARMv8-a指令集參考手冊:
https://developer.arm.com/docs/ddi0487/a
https://static.docs.arm.com/ddi0487/a/DDI0487A_j_armv8_arm.pdf(官方標准手冊)
https://developer.arm.com/products/architecture/cpu-architecture/a-profile/docs/den0024/latest/porting-to-a64
https://community.arm.com/processors/b/blog/posts/porting-to-arm-64-bit
https://www.element14.com/community/servlet/JiveServlet/previewBody/41836-102-1-229511/ARM.Reference_Manual.pdf(指令集對比手冊)
http://profsite.um.ac.ir/~shoraka/ARMInstructionSet.pdf
http://infocenter.arm.com/help/topic/com.arm.doc.ihi0055b/IHI0055B_aapcs64.pdf
http://infocenter.arm.com/help/topic/com.arm.doc.ihi0056c/IHI0056C_beta_aaelf64.pdf
http://infocenter.arm.com/help/topic/com.arm.doc.den0024a/DEN0024A_v8_architecture_PG.pdf(Programmer’s Guide)
5、ARM64位程序調試
方法一: 直接打印數據
ARM64位下打印數據的方法:
(1). 打印V寄存器:
mov w0, v0.s[0]
mov w1, v0.s[1]
mov w2, v0.s[2]
mov w3, v0.s[3]
bl _print
(2). 打印V寄存器的低64位:
mov w0, v2.s[0]
mov w1, v2.s[1]
bl _print
(3). 打印w寄存器
mov w0, w12
mov w1, w3
bl _print
其中print函數的定義如下:
void print(int a, int b, int c, int d)
{
printf("%08x %08x %08x %08x\n",a,b,c,d);
}
(4).將V寄存器打印到內存的方法
.macro printf_m in1=x0, in2=x1
st1 {\in2\().2D}, [\in1\()]
mov x0, \in1
bl cprintf
.endm
cprintf定義如下:
void cprint(unsigned char *src8)
{
signed char* srcs8 = (signed char*)src8;
short* srcs16 = (short*)src8;
unsigned short* srcu16 = (unsigned short*)src8;
int* srcs32 = (int*)src8;
printf("u8:\n");
for(int i=0; i < 16; i++)
{
printf("%d", src8[i]);
}
printf("s8:\n");
for(int i=0; i < 16; i++)
{
printf("%d", srcs8[i]);
}
printf("u16:\n");
for(int i=0; i < 8; i++)
{
printf("%d", srcu16[i]);
}
printf("s16:\n");
for(int i=0; i < 8; i++)
{
printf("%d", srcs16[i]);
}
printf("s32:\n");
for(int i=0; i < 4; i++)
{
printf("%d", srcs32[i]);
}
}
方法二: GDB調試
詳細調試方法可以參考:GDB調試方法
對於neon寄存器入棧:
.macro push_v_regs
stp d8, d9, [sp, #-16]!
stp d10, d11, [sp, #-16]!
stp d12, d13, [sp, #-16]!
stp d14, d15, [sp, #-16]!
.endm
.macro pop_v_regs
ldp d14, d15, [sp], #16
ldp d12, d13, [sp], #16
ldp d10, d11, [sp], #16
ldp d8, d9, [sp], #16
.endm
至於要用的是v8~v15寄存器,為什么成了壓d8~d15? 具體原因可以參考:http://infocenter.arm.com/help/topic/com.arm.doc.ihi0055b/IHI0055B_aapcs64.pdf 5.1.2小節 SIMD and Floating-Point Registers
Registers v8-v15 must be preserved by a callee across subroutine calls; the remaining registers (v0-v7, v16-v31) do not need to be preserved (or should be preserved by the caller). Additionally, only the bottom 64-bits of each value stored in v8-v15 need to be preserved; it is the responsibility of the caller to preserve larger values.
在采用gdb調試程序時遇到以下兩個問題:
問題一:在對v寄存器(v8~v15)入棧后,采用gdb調試會出現下面的問題:
/build/gdb-qLNsm9/gdb-7.11.1/gdb/aarch64-tdep.c:334: internal-error: aarch64_analyze_prologue: Assertion
inst.operands[0].type == AACH64_OPAND_Rt
failed.
解決方案:
通過分析可知,在對neon寄存器(v8~v15)進行入棧后采用gdb調試會出現報錯,無法實現在存在對neon寄存器入棧的匯編代碼進行gdb調試。這是當前gdb版本7.11.1存在的堆棧問題,是屬於gdb本身存在的bug,可以通過升級gdb版本實現調試。
另外可以采用st1,ld1對SP存取數據的方式進行臨時替換,當然該方案僅用於調試,通過測試可知,采用該方式替代stp,ldp入棧出棧后子程序可以得到正確的結果,並且不會影響調用者中的值。對於這點尚存在疑問?
關於采用st1,ld1方式入棧出棧的說明:
單獨采用st1,ld1方式進行入棧出棧,測試可知不會影響調用者中的值。
采用st1,ld1方式進行入棧出棧,中間存在大量匯編代碼,進行測試可知:可能會影響調用者的值。打印輸出時間信息為0,不能正常顯示調用者的值,但是子程序可以得到正確的值。
.macro push_v_regs_d
sub sp, sp, #128
st1 {v8.8H, v9.8H}, [sp], #32
st1 {v10.8H, v11.8H}, [sp], #32
st1 {v12.8H, v13.8H}, [sp], #32
st1 {v14.8H, v15.8H}, [sp]
.endm
.macro pop_v_regs_d
ld1 {v14.8H, v15.8H}, [sp]
sub sp, sp, #32
ld1 {v12.8H, v13.8H}, [sp]
sub sp, sp, #32
ld1 {v10.8H, v11.8H}, [sp]
sub sp, sp, #32
ld1 {v8.8H, v9.8H}, [sp]
add sp, sp, #128
.endm
關於SP入棧、出棧更多可參考:
- https://community.arm.com/processors/b/blog/posts/using-the-stack-in-aarch64-implementing-push-and-pop
- https://community.arm.com/processors/b/blog/posts/using-the-stack-in-aarch32-and-aarch64
- https://stackoverflow.com/questions/40271180/push-and-pop-a-full-128-bit-neon-register-to-from-the-stack-in-aarch64
問題二:程序出現 segmention fault后,采用gdb調試
可能原因分析:
1、段錯誤一般是由於堆棧被破環,在存取數據時引起SIGSEGV crash,通常是由於內存讀寫越界導致。關於SIGSEGV的解釋可以詳見SIGSEGV與SIGBUS的區別分析。
2、堆棧可能是正確的,但是在存取數據時訪問的地址不對(即指針所對應的地址是無效地址,沒有物理內存對應該地址),造成訪問越界引起crash,比如含有指針地址的函數聲明與函數實現不一致會引起段錯誤。(2018.9.25 調試svac2dec庫總結經驗)
6、IOS64和ARM64的參數傳遞差異和編譯差異
(1)ARM64參數入棧都要保證8字節對齊,跟數據類型無關,而IOS64的參數入棧跟數據類型有關;
(2)ARM64參數傳遞是成對傳遞的,比如(x0,x1),(x2,x3)等,而IOS64的參數傳遞並不應遵守這一准則;
(3)ARM和IOS編譯的差別:
ARM在Linux下編譯gcc早期版本函數名前需要添加下划線,目前最新版本的gcc(4.4.7)不需要添加,這與gcc編譯版本相關;
IOS平台下編譯都需要添加下划線:“_”。
7、ARM64位加載和存儲數據的幾種格式
ld1 {v20.8H, v21.8H}, [x1] @ 從x1指向的存儲單元位置一次性加載128*2位數據到v20和v21中
ld1 {v1.8B}, [x1], x2 @ 從x1指向的存儲單元位置加載64位數據到v1的低64位中,然后x1=x1+x2
ld1 {v18.S}[0], [x0], x1 @ 將x0地址里面的數據取32位加載到v18的最低32位,然后x0=x0+x1
ld1r {v30.8H}, [x1] @ 從x1地址中以16位為單位取128位加載到v30中。
st1 {v30.8H}, [x1], #16 @ 將 寄存器v30中128位數據存儲到x1地址處,然后x1=x1+16
st1 {v0.S}[0], [x0], x2 @ 將 寄存器v0的低32位數據存儲到x0地址處嗎,然后x0=x0+x2
8、ARM64位下程序注釋
在ARM32位下,單行注釋采用@或者//,多行注釋可以采用/**/;
在ARM64位下,單行注釋采用//,多行注釋采用/* */;
因此為了程序注釋的統一,建議在ARM32位和ARM64位程序中注釋都采用//的格式。
THE END!