翻譯 hillin
翻譯版權所有©2011 hillinworks,轉載需征得譯者允許。
目錄
一 前言
二 基本事實
三 關於表
四 關於字符串
五 削減、重用與回收
六 最后的提示
在運行任何代碼之前,Lua都會把源代碼翻譯(預編譯)成一種內部的格式。這種格式是一個虛擬機指令序列,與真實的CPU所執行的機器碼類似。之后,這個內部格式將會被由一個包含巨大的switch結構的while循環組成的C代碼解釋執行,switch中的每個case對應一條指令。
可能你已經在別處了解到,從5.0版開始,Lua使用一種基於寄存器的虛擬機。這里所說的虛擬機“寄存器”與真正的CPU寄存器並不相同,因為后者難於移植,而且數量非常有限。Lua使用一個棧(通過一個數組和若干索引來實現)來提供寄存器。每個活動的函數都有一個激活記錄,也就是棧上的一個可供該函數存儲寄存器的片段。因此,每個函數都有自己的寄存器[1]。一個函數可以使用最多250個寄存器,因為每個指令只有8位用於引用一個寄存器。
由於寄存器數目眾多,因此Lua預編譯器可以把所有的局部變量都保存在寄存器里。這樣帶來的好處是,訪問局部變量會非常快。例如,如果a和b是局部變量,語句
a = a + b
將只會生成一個指令:
ADD 0 0 1
(假設a和b在寄存器里分別對應0和1)。作為對比,如果a和b都是全局變量,那么這段代碼將會變成:
GETGLOBAL 0 0 ; a GETGLOBAL 1 1 ; b ADD 0 0 1 SETGLOBAL 0 0 ; a
因此,可以很簡單地得出在Lua編程時最重要的性能優化方式:使用局部變量!
如果你想壓榨程序的性能,有很多地方都可以使用這個方法。例如,如果你要在一個很長的循環里調用一個函數,可以預先將這個函數賦值給一個局部變量。比如說如下代碼:
for i = 1, 1000000 do local x = math.sin(i) end
比下面這段要慢30%:
local sin = math.sin for i = 1, 1000000 do local x = sin(i) end
訪問外部局部變量(或者說,函數的上值)沒有直接訪問局部變量那么快,但依然比訪問全局變量要快一些。例如下面的代碼片段:
function foo (x) for i = 1, 1000000 do x = x + math.sin(i) end return x end print(foo(10))
可以優化為在foo外聲明一次sin:
local sin = math.sin function foo (x) for i = 1, 1000000 do x = x + sin(i) end return x end print(foo(10))
第二段代碼比前者要快30%。
盡管比起其他語言的編譯器來說,Lua的編譯器非常高效,但是編譯依然是重體力活。因此,應該盡可能避免運行時的編譯(例如使用loadstring函數),除非你真的需要有如此動態要求的代碼,例如由用戶輸入的代碼。只有很少的情況下才需要動態編譯代碼。
例如,下面的代碼創建一個包含返回常數值1到100000的若干個函數的表:
local lim = 10000 local a = {} for i = 1, lim do a[i] = loadstring(string.format("return %d", i)) end print(a[10]()) --> 10
執行這段代碼需要1.4秒。
通過使用閉包,我們可以避免使用動態編譯。下面的代碼只需要十分之一的時間完成相同的工作:
function fk (k) return function () return k end end local lim = 100000 local a = {} for i = 1, lim do a[i] = fk(i) end print(a[10]()) --> 10