前一篇文章簡單介紹了我的VL指令集和LVM虛擬機,這篇文章介紹VL指令集的設計過程。
設計指令集
這里我一步步說明目前指令的設計過程,這些指令大多已經確定,也有一些是臨時加入,還沒有驗證實用性。
希望看到這篇文章的讀者能多多給我提建議,讓我的虛擬指令能從玩具變成實用品。
針對軟件設計的虛擬指令集
在設計指令前,我就確定了設計的原則:
- 首先,我的指令不是用來做硬件電路,而是用C語言和匯編解釋執行的,所以指令要設計得使軟件虛擬機能盡可能快地運行。
- 指令越短越好。這不僅能減小程序大小,也使虛擬機取指令更快。
- 虛擬機執行每條指令前要取指和翻譯,執行指令后要更改程序計數器(PC)的值,這是虛擬指令相比原生代碼的一部分累贅。因此一條虛擬指令內執行的事越多,性能就可以越接近原生代碼。總結就是要減少一個操作所需要的指令數。
- 已固定的東西越多,運行越快。這是因為變量需要讀取內存。例如在指令中取虛擬機寄存器R[rx]和固定的R[3]是不同的,因為rx需要再讀一次值才能確定。然而為了更靈活的功能,變量常常是必須,只能自行權衡。
省着分配opcode
在增加指令前,還要考慮指令的數量,由此確定操作碼(opcode)需要的位數。為了加快指令譯碼,我將操作碼定為1字節,因此可以表示256種不同的指令。
但這256個位置不是都用來表示指令,我將操作碼 0 認定為空異常,而255是程序結束符。這是因為0x00和0xFF經常出現在程序中,可以檢測程序是否運行到非法的地方。
這樣還剩254個指令,這里我按設計順序列為
- 立即數指令
- 移動指令
- 加減運算
- 跳轉、分支
- 函數調用
- 內存讀取儲存
- 移位、位運算
- 系統指令
- 寄存器窗口操作
- 結束符
指令說明
在介紹VL指令前我先解釋文中表示指令的格式,表格里每小格代表1bit,8小格組成1byte,靠左的是低地址字節,每格里靠左是低位。
VL指令的長度不是固定的,但大多是1字節對齊的,每條指令的長度是表格中不空白的部分。
其中第一大格為操作碼,4小格的一般是寄存器,藍色的格代表立即數,也就是在指令中的常數;橙色的代表偏移或地址,用於跳轉指令。
空指令
首先加入的是最簡單的空操作指令,只需一個opcode。
nop代表什么都不做,這條指令在硬件系統中可能會用來調節流水線,但在我的虛擬機中,應該是沒用的。
立即數指令
之后設計的是向寄存器寫入立即數的指令,因為這是一台機器基本功能的“輸入-運行-輸出”中開頭的部分,對應程序中的常數量。
因為很多時候時候都需要設定像-1,0,1,2這樣不大的常數,所以這種常用指令應該比較短。
此外也要考慮使用使用大常數的情況。在x86,JAVA等大多數程序中都設定一塊常數池,運行時查表取數。
我沒有采用常量池的方法,因為我不想多查表,所以考慮后的結果是把立即數都存指令里,分別設計了4條獲取立即數的指令:
表示立即數時,我用s代表有符號(signed),u為無符號(unsigned),后接數字代表位長。s8就對應char,s16為short。
暫時沒有set rd,u32,因此沒辦法表示u32。這不一定是問題,如果虛擬機是32位,那么s32和u32在數據上沒有差別。如果是64位還要再考慮要不要加。
rd表示目標寄存器,rd后面是空的,因為我為了讀取和譯碼效率,盡量對齊立即數,這里空出的4位未來也可能用上。
移動寄存器指令
之后加入的是移動寄存器指令。
非常簡單,rd目標寄存器,rs來源寄存器。
加減運算指令
加減是機器功能的基礎,所以也在一開始就加入了。
先加入的有自增,立即數加法和寄存器加法。
inc指令雖然叫自增,事實上可以運算[-8,7]的范圍。
add是一個只有兩個操作寄存器的運算指令,相當於rd+=rs。因為這種運算經常出現,所以添加了這條指令,可以縮小指令大小。
add2中的2代表"To",rs1和rs2加到rd的意思。
而sub和sub2是最后才加入的。
跳轉指令
跳轉也是計算機功能中的基礎,我設了兩條相對跳轉和一條絕對跳轉指令。
計划將jump_32也改成相對跳轉。
在VL指令集中,跳轉代表無條件跳轉,分支代表有條件跳轉。
分支指令
在x86中,分支是通過先測試寄存器值,設定標志位,然后根據標志位跳轉。
我的虛擬機沒有采用標志位的方法,是類似於MIPS的無標志位跳轉。
這會導致分支指令占據指令總量的一大部分,為了讓分支少一兩句代碼,我覺得值。
目前只有和0、整數、寄存器的比較分支,各分為相等分支,不相等分支,大於分支,大於等於分支。這部分還在變動階段,后續會大量改動。
指令格式如下(長度分別為 4,4,6字節):
這些指令分別有beq/bne/bgt/bgeq共四組。
這里offset20並沒有遵循對齊的原則,因為我受到4位空間的誘惑,選擇了將16位向前拓展4位而不是向后拓展16位。因此也意味着offset20分支最大只能跳轉前后512KB的程序大小,而offset16只能前后跳轉32KB。
雖然似乎非常受限,但是因為分支指令在程序中經常出現且一般范圍不大,所以我盡量壓縮它們的大小。
除了這個原因,遠距離分支的問題也可以通過反轉分支條件並在分支后接一條遠跳轉指令的方法來解決。
函數指令
到函數這部分可以說指令設計已經到了高級階段。
首先是函數調用,通常函數調用就是保存PC,然后跳轉。因為我的虛擬機是基於寄存器窗口的,所以我的調用還要移動窗口。
函數調用指令會使虛擬機執行一系列操作:
- 將窗口后移。
- 把PC保存到窗口前一個寄存器。(移動窗口和保存PC的順序可以調換)
- 將PC跳轉到函數地址。
參考上一篇文章中的這張圖:
所以,調用指令中需要指定窗口移動量,還要包含函數的地址。
我設計了兩條指令,xcall是可控制窗口移動量的超級調用;call則是固定移動14個寄存器的普通調用,用這條指令來節約程序大小並減少取碼加快運行。
我也在考慮將address32改為offset32。
函數返回
返回指令的功能是和調用正相反:
- 將之前的PC從窗口前一個寄存器取出。
- 將窗口移回。
- PC跳回之前的PC。
其實,如果在調用時,將窗口移動量也保存在窗口前,那么返回時就可以不用設定移動量,而是像PC一樣讀取。但考慮到寄存器占用問題,我還沒有加入這樣的指令。如果有了堆棧,就可以將PC和移動量都保存到棧中了,這些就之后再說。
此外,現在移動量都是寫死的值,如果可以使用寄存器值在函數調用時控制窗口移動量,程序靈活性會更高,這些也還在考慮中。
內存保存讀取
內存的讀寫操作也是程序很重要的需求,放到現在是因為最開始不敢貿然確立。所謂內存操作就是寄存器到內存,內存到寄存器,還有內存到內存。
在精簡指令集中,內存操作限定為一個load和一個store,不僅減少了指令也大大簡化電路設計。
而在英特爾指令集中,有很多內存指令,可以對指針地址和內容進行運算再讀寫。根據上面列出的第二點原則,我希望這些指令功能往復雜方向走。
目前的指令如下:
其中每種指令都對應了8位,16位,32位這三種情況,加載指令還分有符號和無符號數。他們的匯編語法格式為:
-*讀取內存 load rd,[rs].s8 load rd,[rs].u8 load rd,[rs].s16 load rd,[rs].u16 load rd,[rs].s32 load rd,[rs].u32 -*寫入內存 save rd,[rs].8 save rd,[rs].16 save rd,[rs].32 -*讀取內存 自增 load rd,[rs+s8].s8 load rd,[rs+s8].u8 load rd,[rs+s8].s16 load rd,[rs+s8].u16 load rd,[rs+s8].s32 -*寫入內存 自增 save rd,[rs+s8].8 save rd,[rs+s8].16 save rd,[rs+s8].32
其中savef/loadf都會對源寄存器的地址進行自增,這樣的指令在順序讀取中可以減少指令數。
為了復雜的目標,我還准備加入load rd,[rs+rx].s8這樣的三寄存器指令,還有從內存到內存的copy指令 copy [rd],[rs]。
在那之前,大家已經可以看到其代價也非常大,在現在不支持浮點數的情況下,內存指令就已經有18條,如果加上[rs+rx](9條)和copy(6條)等指令,起碼會有33條指令。若再加上浮點數那真是爆炸了,所以我也在考慮是否有必要,還要看后續指令空間是否有剩余。
為什么將寄存器存到內存指令叫save不叫store? 因為load和save都是四個字母,對齊好看。
系統指令
系統指令是虛擬機的魔法,也是促使我一直做到現在的動力。
虛擬機特點就在“虛擬”二字,在虛擬機中宛如隔世,對真實世界一無所知。而系統指令,讓虛擬機可以訪問真實系統里的信息,建起了真實與虛擬間的橋。
此外,虛擬機對虛擬機中運行程序而言也是“系統”,因此系統指令也包括程序對虛擬機的訪問指令,例如讀取虛擬機的寄存器窗口指針(RP),PC,SP,error等特殊寄存器:
其中vreg是指虛擬機的特殊寄存器。
addvi指令的用途在於,由於程序文件是加載到內存中的隨機地址中,所以要讀取儲存在程序文件中的數據塊data,只能通過相對程序頭部或相對某指令偏移的方法,通過addvi指令就可以rd=pc+offset,從而獲取到數據塊的地址。
而真正賦予虛擬機能力的是系統調用指令,讓虛擬機站在巨人的肩膀上。
系統調用是調用C函數執行操作,例如分配內存,輸出文字到控制台,從控制台獲取輸入等,這些函數使虛擬機連接到了真實世界中。
系統調用不同於虛擬機內函數調用,它運行在C環境中,所以不用移動寄存器窗口,系統函數直接從窗口內獲取參數並將結果寫入窗口內。
目前function是8位的空間,所以可以容納256種系統調用。
目前的系統函數簡單封裝了malloc/free/resize/printf/scanf,后續會繼續完善。
移位操作指令
移位共有左移位(shl)、右算術移位(shr)和右邏輯移位(ushr)三種類型。
我認為移位是很常用的功能,所以每種移位我都給了4條指令。總共12條指令。
位運算指令
位運算有“與”、“或”、“異或”和一個還未添加的“非”指令。
如果加上一條非指令not rd,共有10條指令。
乘除法指令
乘數法指令格式類似於加減法。但立即數乘除法都只設計了8位的立即數,而沒有16位和32位,我還在考慮他們的實用性。
除法格式相同。
程序結束指令
這個放在最后寫,有始有終。與真實系統不同,真實系統從開機開始就一直在運行指令,不需要停止,而虛擬機就像一個程序,通常都會有運行結束的時候。
所以我使用END符代表結束,opcode=0xFF,虛擬機碰到這個指令就會正常的結束退出。
接下來
至此,我已經介紹完所有已確定的和未列入集的指令,總共有73條。之后,我打算先測試目前指令的實用性,然后謹慎添加需要的指令。
計划加入浮點數和可能增加的棧指令后,指令總數在180之內,最后考慮添加向量指令。
指令集大致確定之后,我就開始編寫虛擬機代碼,下一篇文章將會記錄LVM虛擬機的實現過程和優化心得。