原文:http://kilik.iteye.com/blog/677253
最近在研究java的性能調優,順手寫了一個小程序來測試性能問題。這個程序用來進行矩陣乘法運算,如下:
for (int i = 0; i < 2048; i++) for (int j = 0; j < 2048; j++) for (int k = 0; k < 2048; k++) res[i][j] += mul1[i][k] * mul2[k][j];
在ubuntu 10.04(64bit)下,JDK 1.6.0.20運行該程序共耗時76秒。分析下來,影響運行速度的因素主要有兩個:cache miss 和 TLB miss.
這里主要講TLB miss的問題,cache miss留待下回分解。由於,在默認情況下內存分頁大小為4K, 而每次作乘法時,取值均跨至少8K(4*2048)的范圍,而一級數據頁表緩存(L1 DTLB)是非常小的,Intel Core 2架構下4KB小頁表的條目只有16個。這意味着TLB miss的概率很高,最差情況下每次數據訪問都將出現一次miss;而使用大內存分頁(如,2M)后,大概每256次數據訪問出現一次miss。實際情況確實反映了這一現象,使用大內存頁后,同樣的程序耗時大幅下降到45秒。
接下來介紹如何在Ubuntu 10.04(64bit) + JDK (Hotspot 1.6.0.20) 環境下啟用大內存頁,並指定jvm使用大內存頁。這些步驟應該也可以應用到其他linux系統。(注,為完成下列步驟,用戶需要有root權限)
1. 了解linux系統對大內存頁的支持。
# grep Huge /proc/meminfo
HugePages_Total: 0
HugePages_Free: 0
Hugepagesize: 2048 kB
說明,系統支持2M的大內存分頁。
2. 修改內核參數,為large page預留內存
a. 設置共享內存段最大值,最少要大於jvm使用的large page的內存。
如需要設置大小為2G(1024*1024*1024*2=2147483648),則添加下行到文件 /etc/sysctl.conf
kernel.shmmax=2147483648
b. 設置需要預留多少大內存頁。
如需要為jvm預留1G的large page內存,則需要預留512頁大內存頁(512*2M=1G)
添加下行到文件 /etc/sysctl.conf
vm.nr_hugepages=512
3. 為你的進程添加訪問large page共享內存段的權限
添加新的用戶組,並把自己加入到這個組。如,添加用戶組 hugetlb,並把當前用戶 kilik 添加到該組。
添加下行到文件 /etc/sysctl.conf ,其中1001為用戶組hugetlb的gid。
vm.hugetlb_shm_group = 1001
4. 修改用戶安全設置,允許進程鎖定更大的內存段
large page共享內存必須鎖定到主存,不能swap到磁盤,因此需要修改用戶的memlock設置。添加如下兩行到文件 /etc/security/limits.conf。其中,1048576代表1G(1024*1024 K)
kilik hard memlock 1048576
kilik soft memlock 1048576
5. 重啟OS以使上述設置生效。
6. 添加相關jvm運行參數,告訴jvm使用large page內存。
不同的jvm有不同的參數設置來開啟大內存頁的支持,對Sun Hotspot而言,這個參數是 -XX:+UseLargePages。因此可以使用如下命令行來運行矩陣乘法程序。
java -XX:+UseLargePages -Xmx512m -Xms512m -cp . org.kilik.perf.ClassicMatrixMulti
Java程序實現矩陣乘法:https://blog.csdn.net/Waria/article/details/77417751
/** * 矩陣乘法 * a點乘b,當矩陣a的列數x與矩陣b的行數y相等時可進行相乘 * a乘b得到的新矩陣c,c的行數y等於a的行數,c的列數x等於b的列數 * Created by Queena on 2017/8/19. */ public class MatrixMultiplication { public static int[][] matrix(int a[][], int b[][]) { //當a的列數與矩陣b的行數不相等時,不能進行點乘,返回null if (a[0].length != b.length) return null; //c矩陣的行數y,與列數x int y = a.length; int x = b[0].length; int c[][] = new int[y][x]; for (int i = 0; i < y; i++) for (int j = 0; j < x; j++) //c矩陣的第i行第j列所對應的數值,等於a矩陣的第i行分別乘以b矩陣的第j列之和 for (int k = 0; k < b.length; k++) c[i][j] += a[i][k] * b[k][j]; return c; }