PHP7源碼之array_flip函數分析


以下源碼基於 PHP 7.3.8

array array_flip ( array $array )
(PHP 4, PHP 5, PHP 7)
array_flip — 交換數組中的鍵和值

array_flip 函數的源代碼在 /ext/standard/array.c 文件中。

/* {{{ proto array array_flip(array input)
   Return array with key <-> value flipped */
PHP_FUNCTION(array_flip)
{
    // 定義變量
    zval *array, *entry, data;
    zend_ulong num_idx;
    zend_string *str_idx;
    
    // 解析數組參數
    ZEND_PARSE_PARAMETERS_START(1, 1)
        Z_PARAM_ARRAY(array)
    ZEND_PARSE_PARAMETERS_END();
    
    // 初始化返回數組
    array_init_size(return_value, zend_hash_num_elements(Z_ARRVAL_P(array)));
    
    // 遍歷每個元素,並執行鍵值交換操作
    ZEND_HASH_FOREACH_KEY_VAL(Z_ARRVAL_P(array), num_idx, str_idx, entry) {
        ZVAL_DEREF(entry);
        if (Z_TYPE_P(entry) == IS_LONG) {
            if (str_idx) {
                ZVAL_STR_COPY(&data, str_idx);
            } else {
                ZVAL_LONG(&data, num_idx);
            }
            zend_hash_index_update(Z_ARRVAL_P(return_value), Z_LVAL_P(entry), &data);
        } else if (Z_TYPE_P(entry) == IS_STRING) {
            if (str_idx) {
                ZVAL_STR_COPY(&data, str_idx);
            } else {
                ZVAL_LONG(&data, num_idx);
            }
            zend_symtable_update(Z_ARRVAL_P(return_value), Z_STR_P(entry), &data);
        } else {
            php_error_docref(NULL, E_WARNING, "Can only flip STRING and INTEGER values!");
        }
    } ZEND_HASH_FOREACH_END();
}
/* }}} */

參數解析 Z_PARAM_ARRAY

先看參數解析部分

ZEND_PARSE_PARAMETERS_START(1, 1)
    Z_PARAM_ARRAY(array)
ZEND_PARSE_PARAMETERS_END();

Z_PARAM_ARRAY 的主要作用是指定一個參數使數組解析為 zval。關於它的詳細資料可以點此查看

Specify a parameter that should parsed as an array into a zval.

返回值 return_value

解析完參數后,返回數組就被初始化了:

array_init_size(return_value, zend_hash_num_elements(Z_ARRVAL_P(array)));

ZEND_FUNCTION 本身不像 PHP 一樣用 return 返回值,而是修改 return_value 指針所指向的變量,內核會把 return_value 指向的變量作為用戶端調用此函數后得到的返回值。
Z_ARRVAL_P 的定義如下:

#define Z_ARRVAL_P(zval_p)          Z_ARRVAL(*(zval_p))

zend_hash_num_elements 函數代碼如下:

#define zend_hash_num_elements(ht) \
    (ht)->nNumOfElements

array_init_size 函數代碼如下:

#define array_init_size(arg, size)  ZVAL_ARR((arg), zend_new_array(size))

返回數組的初始化主要分為 3 步:
Z_ARRVAL_P 宏從 zval 里面提取值到哈希表;
zend_hash_num_elements 提取哈希表元素的個數(nNumOfElements 屬性)。
array_init_size 使用 size 變量初始化數組。

鍵值交換

ZEND_HASH_FOREACH_KEY_VAL 宏定義的內容如下:

#define ZEND_HASH_FOREACH_KEY_VAL(ht, _h, _key, _val) \
    ZEND_HASH_FOREACH(ht, 0); \
    _h = _p->h; \
    _key = _p->key; \
    _val = _z;

繼續展開 ZEND_HASH_FOREACH

#define ZEND_HASH_FOREACH(_ht, indirect) do { \
        HashTable *__ht = (_ht); \
        Bucket *_p = __ht->arData; \
        Bucket *_end = _p + __ht->nNumUsed; \
        for (; _p != _end; _p++) { \
            zval *_z = &_p->val; \
            if (indirect && Z_TYPE_P(_z) == IS_INDIRECT) { \
                _z = Z_INDIRECT_P(_z); \
            } \
            if (UNEXPECTED(Z_TYPE_P(_z) == IS_UNDEF)) continue;

ZEND_HASH_FOREACH_END 的定義如下:

#define ZEND_HASH_FOREACH_END() \
        } \
    } while (0)

ZEND_HASH_FOREACH_KEY_VAL(Z_ARRVAL_P(array), num_idx, str_idx, entry) {
    // code
}

完全展開如下:

do { 
    Bucket *_p = (_ht)->arData;  // Z_ARRVAL_P(array) ---> ht ---> _ht
    Bucket *_end = _p + (_ht)->nNumUsed;  // 起始地址+偏移地址
    for (; _p != _end; _p++) { 
        zval *_z = &_p->val; 
        if (indirect && Z_TYPE_P(_z) == IS_INDIRECT) { 
            _z = Z_INDIRECT_P(_z); 
        } 
        if (UNEXPECTED(Z_TYPE_P(_z) == IS_UNDEF)) continue;
        _h = _p->h;  // zend_ulong num_idx ---> _h
        _key = _p->key; // zend_string *str_idx ---> _key
        _val = _z; // zval *entry ---> _val
        {
           //code
        } 
    } 
} while (0)

主要作用是迭代一個哈希表的鍵和值。在上面完全展開的代碼中,省略的代碼 code 主要實現交換鍵值

  • 如果數組元素的索引為數字:
if (Z_TYPE_P(entry) == IS_LONG) {
    if (str_idx) {
        ZVAL_STR_COPY(&data, str_idx);
    } else {
        ZVAL_LONG(&data, num_idx);
    }
    zend_hash_index_update(Z_ARRVAL_P(return_value), Z_LVAL_P(entry), &data);
}

zend_hash_index_update 的三個參數分別是:需要更新的哈希表 Z_ARRVAL_P(return_value),整型下標 Z_LVAL_P(entry),值 &data
如果str_idx 不為空,就將 str_idx 拷貝給 data ,反之將 num_idx 拷貝給 data ,然后使用 zend_hash_index_update 函數將值插入/更新到返回數組中。

  • 如果數組元素的索引為字符串:
else if (Z_TYPE_P(entry) == IS_STRING) {
    if (str_idx) {
        ZVAL_STR_COPY(&data, str_idx);
    } else {
        ZVAL_LONG(&data, num_idx);
    }
    zend_symtable_update(Z_ARRVAL_P(return_value), Z_STR_P(entry), &data);
}

如果str_idx 不為空,就將 str_idx 拷貝給 data ,反之將 num_idx 拷貝給 data ,然后使用 zend_symtable_update 函數將值插入/更新到返回數組中。

  • 數組元素的值只能為字符串或整數,否則報 warning 錯誤:
else {
    php_error_docref(NULL, E_WARNING, "Can only flip STRING and INTEGER values!");
}

以上就是 array_flip 函數的源碼分析。(END)


后記:其實一開始的標題是『為什么array_flip(array_flip())比array_unique()快』,於是有了以下的篇幅☟,再然后覺得要追根溯源,於是去研究 PHP7 的源代碼,標題改成了『PHP7源碼解釋為什么array_flip(array_flip())比array_unique()快』,就有了上邊的篇幅☝,可沒想到光一個 array_flip 函數的源碼整理就用去了不少時間,遂定為『PHP7源碼之array_flip函數』,等后面得了時間再整理 array_unique 函數的筆記。(捂臉)

今天在項目中看到這樣一句代碼

$userIds = array_flip(array_flip($ids));

顯而易見,這是為了去重,因為 array_flip 函數可以交換數組中的鍵和值,原來重復的值會變為相同的鍵。再進行一次鍵值互換,把鍵和值換回來則可以完成去重。
想起幾年前跟朋友學 PHP 時,朋友說去重函數 array_unique 性能不高,要少用。只不過那時是初學,沒有刨根問底。可今天不忙,就親自動手測試了一下,簡易代碼如下:

//運行開始
$startTime = getMicrotime();
$startMemory = getUseMemory();

$arr = [1,2,3...]; // 數據略

array_unique($arr);
// array_flip(array_flip($arr));

//運行結束
$endTime = getMicrotime();
$endMemory = getUseMemory();

//運行結果
echo "執行耗時:" . ($endTime - $startTime) * 1000 . '毫秒';
echo "占用內存:" . ($endMemory - $startMemory) . 'kb';

/**
* 獲取時間(微秒)
*/
function getMicrotime(){
    list($usec, $sec) = explode(' ', microtime());
    return (float)$usec + (float)$sec;
}

/**
* 獲取使用內存(kb)
*/
function getUseMemory(){
    $useMemory = round(memory_get_usage(true) / 1024, 2);
    return $useMemory;
}

注:代碼在終端執行:CentOS 7.4,PHP 7.3.4。

1w個元素,15個重復元素:

array_unique 0.84280967712402 ms 0.95009803771973 ms 0.85306167602539 ms 0.90694427490234 ms 0.87213516235352 ms
0 kb 0 kb 0 kb 0 kb 0 kb
array_flip 0.7328987121582 ms 0.74005126953125 ms 0.76198577880859 ms 0.77080726623535 ms 0.79989433288574 ms
0 kb 0 kb 0 kb 0 kb 0 kb

可以看到 array_unique 函數去重確實比 array_flip 函數所用時間長一些,但差異不大。

如果是10w個元素,10個重復元素:

array_unique 15.263795852661 ms 23.360013961792 ms 15.237092971802 ms 15.599012374878 ms 15.784978866577 ms
0 kb 0 kb 0 kb 0 kb 0 kb
array_flip 10.167121887207 ms 10.363101959229 ms 10.868072509766 ms 10.629892349243 ms 10.660171508789 ms
0 kb 0 kb 0 kb 0 kb 0 kb

可以看到兩個函數的耗時拉開了差距。相信隨着數據量的增大,耗時的差距也會更大。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM