JIT編譯器推導求余%上下界引發的一連串故事


C1 RCE對%的處理

HotSpot VM的C1有個RCE(Range Check Elimination,范圍檢查消除)優化,所謂范圍檢查消除,就是為了正確的拋出數組越界異常,虛擬機需要在數組訪問的一些地方插入隱式的檢查,但是這些檢查會降低性能,比如在循環中每次循環都得檢查一次,所以HotSpot VM會想辦法在可能的地方消除這些檢查。我在看C1 RCE的時候發現目前它對求余符號的支持較為薄弱,它只能處理形如下面的代碼:

arr[x%arr.length] // 只有除數是x.length的時候,才能應用RCE優化

如果余數是整數常量,它就不能工作了:

arr[x%3]
for(int i=0;i<10;i++){
  arr[x%10]
}

實際上,根據JLS的定義,我們知道如果除數為整數常量(且等於零,因為0作為除數會拋出運行時異常),是可以推導出結果的上下界的(也取決於被除數的正負),規則如下:

  • x % -y ==> [0, y - 1]
  • x % y ==> [0, y - 1]
  • -x % y ==> [-y + 1, 0]
  • -x % -y ==> [-y + 1, 0]

於是,我給JDK發了個patch,這個問題算是解決了。但是Nils提到,C2是否有相同的優化呢?后面Tobias幫忙確認了一下C2沒有,我再后來也進一步確認了,所以下一步是調研C2是否能應用同樣的優化。

調研為C2應用同樣的優化

本來以為是比較trivial的事情,為求余節點的類型系統加點代碼,推導一下上下界即可,實際上我也這么做的,但是最后發現這樣沒有消除上下界。默認開啟-XX:+GenerateRangeChecks后,在數組訪問過程中(Parse::array_addressing),C2仍然生成了范圍檢查。

調試后發現推導上下界根本沒有執行,因為C2創建完求余節點后,會執行一個IGVN的過程,即迭代的應用多種優化,其中就包括理想化,C2理想化是指應用很多局部小優化的過程,在這個例子中就是特殊處理形如x%2^n,x%2^n-1x%1的情況,如果除數是整數常量,它還會使用一個來自https://book.douban.com/subject/1784887/書里面的算法,即Division by Invariant Integers using Multiplication(by Granlund and Montgomery),搜了一下知乎有類似的文章,想要了解細節可以讀讀https://zhuanlan.zhihu.com/p/151038723。知道了原因,於是我改了下代碼,禁止了求余節點的理想化,心想這總可以了吧。

還是不行

是的,還是不行。盡管我已經禁止了對求余符號的理想化優化,但是范圍檢查還是生成了。。。我又繼續看代碼,發現除了理想化的這個優化之外,C2在IR(中間表示)構造的過程中又 又 又 又 又對求余運算做了個優化!如果除數是正整數常量,且是2^n,那么C2會對它進行變形,IR如圖所示:

左邊的IR是 IR構造的時候C2做的優化后的效果,右邊是理想化優化后的效果。實際上它們做的事情本身是比較重復的,而且經過測試發現,在沒有CPU分支預測失效的情況下,理想化優化的算法要好於IR構造過程中的優化:

一個簡單的micro benchmark結果如下:

x64
-----
Parse::do_irem
Benchmark                         Mode  Cnt      Score    Error  Units
ModPowerOf2.testMixedPowerOf2     avgt   25  13258.945 ± 12.420  ns/op
ModPowerOf2.testNegativePowerOf2  avgt   25   8685.782 ± 16.010  ns/op
ModPowerOf2.testPositivePowerOf2  avgt   25   6604.848 ±  1.402  ns/op

ModINode::Ideal
Benchmark                         Mode  Cnt      Score    Error  Units
ModPowerOf2.testMixedPowerOf2     avgt   25  12918.206 ± 11.730  ns/op
ModPowerOf2.testNegativePowerOf2  avgt   25   8675.248 ±  3.279  ns/op
ModPowerOf2.testPositivePowerOf2  avgt   25   8678.828 ±  6.336  ns/op

AArch64:
------
Parse::do_irem
Benchmark                         Mode  Cnt      Score   Error  Units
ModPowerOf2.testMixedPowerOf2     avgt   25  12340.268 ± 1.015  ns/op
ModPowerOf2.testNegativePowerOf2  avgt   25   6752.467 ± 2.671  ns/op
ModPowerOf2.testPositivePowerOf2  avgt   25   6545.322 ± 0.666  ns/op

ModINode::Ideal
Benchmark                         Mode  Cnt      Score   Error  Units
ModPowerOf2.testMixedPowerOf2     avgt   25  12339.301 ± 1.406  ns/op
ModPowerOf2.testNegativePowerOf2  avgt   25   6753.852 ± 3.460  ns/op
ModPowerOf2.testPositivePowerOf2  avgt   25   6752.895 ± 4.207  ns/op

所以開個新patch,移除IR構造做的優化來解決這個問題。

結語

我認為為求余節點推導上下界也是有意義的,如果以后有其他優化會變形為求余運算,那么它們可以應用這個推導,同時,為求余做統一完善的類型推導這件事本身也是正確的,所以我又提了個patch。可以看到,最終我只消除了C1 arr[x%4]的范圍檢查,還是沒能消除C2 arr[x%4]的范圍檢查,是不是以后可以說C1有的地方做的比C2好了(狗頭hh。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM