SIMD（MMX/SSE/AVX）變量命名規范心得

本文轉載自查看原文 2012-04-23 17:49 6942 B60 SIMD/ avx/ SSE/ var/ K23 SSE_流SIMD擴展/ --- Program_編程/ SIMD/ packet/ --- My_原創/ datatype/ K24 AVX_高級矢量擴展/ name/ K20 SIMD_單指令流多數據流/ MMX/ H10 Architecture_體系結構/ K21 MMX_多媒體擴展/ B00 Optimization_優化技巧/ H11 x86/ H00 Hardware_硬件

　　當使用Intrinsics函數來操作SIMD指令集（MMX/SSE/AVX等）時，會面對不同長度的SIMD數據類型，其中又分為多種緊縮格式。為此，我設計了一套SIMD變量命名規范，可以有效的提高代碼的可讀性。

一、SIMD數據類型簡介

　　SIMD數據類型有——
__m64：64位緊縮整數（MMX）。
__m128：128位緊縮單精度（SSE）。
__m128d：128位緊縮雙精度（SSE2）。
__m128i：128位緊縮整數（SSE2）。
__m256：256位緊縮單精度（AVX）。
__m256d：256位緊縮雙精度（AVX）。
__m256i：256位緊縮整數（AVX）。
注：緊縮整數包括了8位、16位、32位、64位的帶符號和無符號整數。

　　這些數據類型與寄存器的對應關系為——
64位MM寄存器（MM0~MM7）：__m64。
128位SSE寄存器（XMM0~XMM15）：__m128、__m128d、__m128i。
256位AVX寄存器（YMM0~YMM15）：__m256、__m256d、__m256i。

二、SIMD變量命名規范

　　參考匈牙利命名法（Hungarian notation），在變量名前面增加類型前綴。
　　類型前綴為3個小寫字母，首字母代表寄存器寬度，最后兩個字母代表緊縮數據類型。

　　寄存器寬度（首字母）——
m：64位MM寄存器。對應 __m64
x：128位SSE寄存器。對應 __m128、__m128d、__m128i。
y：256位AVX寄存器。對應 __m256、__m256d、__m256i。

　　緊縮數據類型（兩個字母）——
mb：8位數據。用於只知道長度、不知道具體緊縮格式時。（b：Byte）
mw：16位數據。（w：Word）
md：32位數據。（d：DoubleWord）
mq：64位數據。（q：QuadWord）
mo：128位數據。（o：OctaWord）
mh：256位數據。（h：HexWord）
ub：8位無符號整數。
uw：16位無符號整數。
ud：32位無符號整數。
uq：64位無符號整數。
ib：8位帶符號整數。
iw：16位帶符號整數。
id：32位帶符號整數。
iq：64位帶符號整數。
fh：16位浮點數，即半精度浮點數。（h：Half）
fs：32位浮點數，即單精度浮點數。（s：Single）
fd：64位浮點數，即雙精度浮點數。（d：double）

　　例如——
mub：64位緊縮字節（64位MMX寄存器，其中存放了8個8位無符號整數）。
xfs：128位緊縮單精度（128位SSE寄存器，其中存放了4個單精度浮點數）。
xid：128位緊縮帶符號字（128位SSE寄存器，其中存放了4個32位帶符號整數）。
yfd：256位緊縮雙精度（256位AVX寄存器，其中存放了4個雙精度浮點數）。
yfh：256位緊縮半精度（256位AVX寄存器，其中存放了16個半精度浮點數）。

三、示例代碼

　　例如SSE累加求和程序——

int sum3_Intrinsics(int *a, int size)
{
    if (NULL==a)    return 0;
    if (size<0)    return 0;

    int s = 0;    // 返回值
    __m128i xidSum = _mm_setzero_si128();    // 累積。[SSE2] 賦初值0
    __m128i xidLoad;    // 加載
    int cntBlock = size / 4;    // 塊數。SSE寄存器能一次處理4個DWORD
    int cntRem = size & 3;    // 剩余數量
    __m128i* p = (__m128i*)a;
    for(int i = 0; i < cntBlock; ++i)
    {
        xidLoad = _mm_load_si128(p);    // [SSE2] 加載
        xidSum = _mm_add_epi32(xidSum, xidLoad);    // [SSE2] 帶符號32位緊縮加法
        ++p;
    }

    // 處理剩下的
    int* q = (int*)p;
    for(int i = 0; i < cntRem; ++i)    s += q[i];

    // 將累加值合並
    xidSum = _mm_hadd_epi32(xidSum, xidSum);    // [SSSE3] 帶符號32位水平加法
    xidSum = _mm_hadd_epi32(xidSum, xidSum);
    s += _mm_cvtsi128_si32(xidSum);    // [SSE2] 返回低32位

    return s;
}

　　代碼出自——
http://topic.csdn.net/u/20120102/01/fc8d7aa4-bffc-4d9a-a34a-5056c6d27b54.html
#9樓

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 AVX 指令詳解 ,還有SSE指令 Js變量命名規范 shell變量命名規范 python的變量命名規范變量及其命名和使用規范變量的命名規范 IDEA變量的命名規范 JS中變量的命名規范 python 中變量的命名規范【轉】python變量命名規范