Lua性能優化技巧[二 基本事實]


原作者 Roberto Ierusalimschy

翻譯 hillin

翻譯版權所有©2011 hillinworks,轉載需征得譯者允許。


目錄


一 前言

二 基本事實

三 關於表

四 關於字符串

五 削減、重用與回收

六 最后的提示


在運行任何代碼之前,Lua都會把源代碼翻譯(預編譯)成一種內部的格式。這種格式是一個虛擬機指令序列,與真實的CPU所執行的機器碼類似。之后,這個內部格式將會被由一個包含巨大的switch結構的while循環組成的C代碼解釋執行,switch中的每個case對應一條指令。

可能你已經在別處了解到,從5.0版開始,Lua使用一種基於寄存器的虛擬機。這里所說的虛擬機“寄存器”與真正的CPU寄存器並不相同,因為后者難於移植,而且數量非常有限。Lua使用一個棧(通過一個數組和若干索引來實現)來提供寄存器。每個活動的函數都有一個激活記錄,也就是棧上的一個可供該函數存儲寄存器的片段。因此,每個函數都有自己的寄存器[1]。一個函數可以使用最多250個寄存器,因為每個指令只有8位用於引用一個寄存器。

由於寄存器數目眾多,因此Lua預編譯器可以把所有的局部變量都保存在寄存器里。這樣帶來的好處是,訪問局部變量會非常快。例如,如果a和b是局部變量,語句

a = a + b

將只會生成一個指令:

ADD 0 0 1

(假設a和b在寄存器里分別對應0和1)。作為對比,如果a和b都是全局變量,那么這段代碼將會變成:

GETGLOBAL 0 0 ; a
GETGLOBAL 1 1 ; b
ADD 0 0 1
SETGLOBAL 0 0 ; a

因此,可以很簡單地得出在Lua編程時最重要的性能優化方式:使用局部變量!

如果你想壓榨程序的性能,有很多地方都可以使用這個方法。例如,如果你要在一個很長的循環里調用一個函數,可以預先將這個函數賦值給一個局部變量。比如說如下代碼:

for i = 1, 1000000 do
    local x = math.sin(i)
end

比下面這段要慢30%:

local sin = math.sin
for i = 1, 1000000 do
    local x = sin(i)
end

訪問外部局部變量(或者說,函數的上值)沒有直接訪問局部變量那么快,但依然比訪問全局變量要快一些。例如下面的代碼片段:

function foo (x)
    for i = 1, 1000000 do
        x = x + math.sin(i)
    end
    return x
end

print(foo(10))

可以優化為在foo外聲明一次sin:

local sin = math.sin
function foo (x)
    for i = 1, 1000000 do
        x = x + sin(i)
    end
    return x
end

print(foo(10))

第二段代碼比前者要快30%。

盡管比起其他語言的編譯器來說,Lua的編譯器非常高效,但是編譯依然是重體力活。因此,應該盡可能避免運行時的編譯(例如使用loadstring函數),除非你真的需要有如此動態要求的代碼,例如由用戶輸入的代碼。只有很少的情況下才需要動態編譯代碼。

例如,下面的代碼創建一個包含返回常數值1到100000的若干個函數的表:

local lim = 10000
local a = {}
for i = 1, lim do
    a[i] = loadstring(string.format("return %d", i))
end

print(a[10]()) --> 10

執行這段代碼需要1.4秒。

通過使用閉包,我們可以避免使用動態編譯。下面的代碼只需要十分之一的時間完成相同的工作:

function fk (k)
    return function () return k end
end

local lim = 100000
local a = {}
for i = 1, lim do a[i] = fk(i) end

print(a[10]()) --> 10

 



[1] 這與在一些CPU上可以找到的寄存器窗口(register window)類似。


下一節:關於表


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM