基於Intel處理器的PREFETCH指令的基本使用

本文轉載自查看原文 2012-03-09 03:39 3816 操作系統與嵌入式系統/ 基於CPU/GPU/DSP的高性能計算

以下這個例子很簡單，分別有兩個雙精度浮點類型的二維數組：double[512][1024]，共4MB數據，分為512行1024列，每列位8個字節。現在將每對浮點數組的每一行的第一個元素相加，然后將結果存到一個在棧上分配的數組。

算法的匯編文件如下所示：

.align 2
.text
.globl _fast_int_sqrt
.globl _get_cycles
.globl _naive_calc
.globl _opt_calc

_get_cycles:

    rdtsc
    shl     $32, %rdx
    or      %rdx, %rax
    ret

_naive_calc:

    mov     $100, %r9

native_loop:

    mov     $512, %r8
    xor     %rcx, %rcx
    xor     %rax, %rax

naive_process:

    fldl    (%rsi, %rcx)
    fldl    (%rdx, %rcx)

    fadd    %st(0), %st(1)
    fcmove  %st(1), %st(0)
    faddp   %st(0), %st(1)


    fstpl   (%rdi, %rax)

    add     $(8 * 1024), %rcx
    add     $8, %rax
    sub     $1, %r8
    jne     naive_process

    sub     $1, %r9
    jne     native_loop

    ret

_opt_calc:

    mov     $100, %r9

    opt_loop:

    mov     $512, %r8
    xor     %rcx, %rcx
    xor     %rax, %rax

opt_process:

    prefetcht0  (8 * 1024)(%rsi, %rcx)
    prefetcht0  (8 * 1024)(%rdx, %rcx)

    fldl    (%rsi, %rcx)
    fldl    (%rdx, %rcx)

    fadd    %st(0), %st(1)
    fcmove  %st(1), %st(0)
    faddp   %st(0), %st(1)


    fstpl   (%rdi, %rax)

    add     $(8 * 1024), %rcx
    add     $8, %rax
    sub     $1, %r8
    jne     opt_process

    sub     $1, %r9
    jne     opt_loop

    ret

上面可以看到opt_calc與naive_calc的唯一區別就是opt_calc多了兩條PREFETCH指令。

下面是C語言的測試函數：

#include <stdio.h>
#include <stdlib.h>
#include <string.h>

extern unsigned long get_cycles(void);

// Calculate 2 * (src1 + src2)
extern void naive_calc(void *dst, const void *src1, const void *src2);
extern void opt_calc(void *dst, const void *src1, const void *src2);

extern void hey(int y);

void hey(int y)
{
    // Initialize the buffers
    void *src1 = malloc(8 * 1024 * 512);
    void *src2 = malloc(8 * 1024 * 512);
    double dst[512];
    
    memset(src1, 0, 8 * 1024 * 512);
    memset(src2, 0, 8 * 1024 * 512);
    
    double *p = (double*)src1;
    *p = 3.141;
    p = (double*)src2;
    *p = 2.163;
    
    // naive
    unsigned long t1 = get_cycles();
    
    naive_calc(dst, src1, src2);        // rdi, rsi, rdx
    
    unsigned long t2 = get_cycles();
    
    // opt
    unsigned long t3 = get_cycles();
    
    opt_calc(dst, src1, src2);
    
    unsigned long t4 = get_cycles();
    
    printf("Naive cycles is: %lu\n", t2 - t1);
    printf("Opt cycles: %lu\n", t4 - t3);
    printf("The value is: %f\n", dst[0]);
    
    free(src1);
    free(src2);
}

這里為了增加些計算周期，所以用了乘以2的方式。

俺在Mac Mini CPU為P7350，2.00GHz的雙核基於45nm技術的Intel Core架構的處理器下測試，添加opt_calc的性能大約能增長8%到20%。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 C語言調用Intel處理器CPUID指令的實例 intel cpu處理器 C#預處理器指令 ARM處理器架構的Thumb指令集中關於IT指令的使用 ARM、Intel、MIPS處理器啥區別？看完全懂了處理器、指令集和匯編語言【轉】 C#中的預處理器指令詳解關於Intel處理器架構中AVX2里Gather特性的說明使用css預處理器的好處有什么？ 6502 處理器