JIT編譯器推導求余%上下界引發的一連串故事

本文轉載自查看原文 2021-05-28 11:03 334

C1 RCE對%的處理

HotSpot VM的C1有個RCE（Range Check Elimination，范圍檢查消除）優化，所謂范圍檢查消除，就是為了正確的拋出數組越界異常，虛擬機需要在數組訪問的一些地方插入隱式的檢查，但是這些檢查會降低性能，比如在循環中每次循環都得檢查一次，所以HotSpot VM會想辦法在可能的地方消除這些檢查。我在看C1 RCE的時候發現目前它對求余符號的支持較為薄弱，它只能處理形如下面的代碼：

arr[x%arr.length] // 只有除數是x.length的時候，才能應用RCE優化

如果余數是整數常量，它就不能工作了：

arr[x%3]
for(int i=0;i<10;i++){
  arr[x%10]
}

實際上，根據JLS的定義，我們知道如果除數為整數常量（且等於零，因為0作為除數會拋出運行時異常），是可以推導出結果的上下界的（也取決於被除數的正負），規則如下：

x % -y ==> [0, y - 1]
x % y ==> [0, y - 1]
-x % y ==> [-y + 1, 0]
-x % -y ==> [-y + 1, 0]

於是，我給JDK發了個patch，這個問題算是解決了。但是Nils提到，C2是否有相同的優化呢？后面Tobias幫忙確認了一下C2沒有，我再后來也進一步確認了，所以下一步是調研C2是否能應用同樣的優化。

調研為C2應用同樣的優化

本來以為是比較trivial的事情，為求余節點的類型系統加點代碼，推導一下上下界即可，實際上我也這么做的，但是最后發現這樣沒有消除上下界。默認開啟-XX:+GenerateRangeChecks后，在數組訪問過程中（Parse::array_addressing），C2仍然生成了范圍檢查。

調試后發現推導上下界根本沒有執行，因為C2創建完求余節點后，會執行一個IGVN的過程，即迭代的應用多種優化，其中就包括理想化，C2理想化是指應用很多局部小優化的過程，在這個例子中就是特殊處理形如x%2^n,x%2^n-1和x%1的情況，如果除數是整數常量，它還會使用一個來自https://book.douban.com/subject/1784887/書里面的算法，即Division by Invariant Integers using Multiplication(by Granlund and Montgomery)，搜了一下知乎有類似的文章，想要了解細節可以讀讀https://zhuanlan.zhihu.com/p/151038723。知道了原因，於是我改了下代碼，禁止了求余節點的理想化，心想這總可以了吧。

還是不行

是的，還是不行。盡管我已經禁止了對求余符號的理想化優化，但是范圍檢查還是生成了。。。我又繼續看代碼，發現除了理想化的這個優化之外，C2在IR（中間表示）構造的過程中又又又又又對求余運算做了個優化！如果除數是正整數常量，且是2^n，那么C2會對它進行變形，IR如圖所示：

左邊的IR是 IR構造的時候C2做的優化后的效果，右邊是理想化優化后的效果。實際上它們做的事情本身是比較重復的，而且經過測試發現，在沒有CPU分支預測失效的情況下，理想化優化的算法要好於IR構造過程中的優化：

一個簡單的micro benchmark結果如下：

x64
-----
Parse::do_irem
Benchmark                         Mode  Cnt      Score    Error  Units
ModPowerOf2.testMixedPowerOf2     avgt   25  13258.945 ± 12.420  ns/op
ModPowerOf2.testNegativePowerOf2  avgt   25   8685.782 ± 16.010  ns/op
ModPowerOf2.testPositivePowerOf2  avgt   25   6604.848 ±  1.402  ns/op

ModINode::Ideal
Benchmark                         Mode  Cnt      Score    Error  Units
ModPowerOf2.testMixedPowerOf2     avgt   25  12918.206 ± 11.730  ns/op
ModPowerOf2.testNegativePowerOf2  avgt   25   8675.248 ±  3.279  ns/op
ModPowerOf2.testPositivePowerOf2  avgt   25   8678.828 ±  6.336  ns/op

AArch64:
------
Parse::do_irem
Benchmark                         Mode  Cnt      Score   Error  Units
ModPowerOf2.testMixedPowerOf2     avgt   25  12340.268 ± 1.015  ns/op
ModPowerOf2.testNegativePowerOf2  avgt   25   6752.467 ± 2.671  ns/op
ModPowerOf2.testPositivePowerOf2  avgt   25   6545.322 ± 0.666  ns/op

ModINode::Ideal
Benchmark                         Mode  Cnt      Score   Error  Units
ModPowerOf2.testMixedPowerOf2     avgt   25  12339.301 ± 1.406  ns/op
ModPowerOf2.testNegativePowerOf2  avgt   25   6753.852 ± 3.460  ns/op
ModPowerOf2.testPositivePowerOf2  avgt   25   6752.895 ± 4.207  ns/op

所以開個新patch，移除IR構造做的優化來解決這個問題。

結語

我認為為求余節點推導上下界也是有意義的，如果以后有其他優化會變形為求余運算，那么它們可以應用這個推導，同時，為求余做統一完善的類型推導這件事本身也是正確的，所以我又提了個patch。可以看到，最終我只消除了C1 arr[x%4]的范圍檢查，還是沒能消除C2 arr[x%4]的范圍檢查，是不是以后可以說C1有的地方做的比C2好了（狗頭hh。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 JIT編譯器 JVM系列七（JIT 即時編譯器）. JIT動態編譯器的原理與實現之設計自己的CPU（一）談談JIT編譯器和本機影像生成器（NGen.exe）你好，C++（4）2.1.3 我的父親母親：編譯器和鏈接器 2.1.4 C++程序執行背后的故事 Java 編譯器 gcc編譯器編譯器構造 Java 編譯器各種編譯器的介紹