關鍵字
解釋器, C#, Scheme, 函數式編程
關於
本文介紹了如何使用C#實現一個簡化但全功能的Scheme方言——iScheme及其解釋器,通過從零開始逐步構建,展示了編程語言/解釋器的工作原理。
作者
如果你是通過移動設備閱讀本教程,或者認為本文的代碼字體太小的,請使用該鏈接以獲得更好的可讀性(博客園的markdown解析器實在詭異,這里就不多吐槽了)。
提示
如果你對下面的內容感興趣:
- 實現基本的詞法分析,語法分析並生成抽象語法樹。
- 實現嵌套作用域和函數調用。
- 解釋器的基本原理。
- 以及一些C#編程技巧。
那么請繼續閱讀。
如果你對以下內容感興趣:
- 高級的詞法/語法分析技術。
- 類型推導/分析。
- 目標代碼優化。
本文則過於初級,你可以跳過本文,但歡迎指出本文的錯誤 :-)
代碼樣例
代碼示例
public static int Add(int a, int b) {
return a + b;
}
>> Add(3, 4)
>> 7
>> Add(5, 5)
>> 10
這段代碼定義了Add函數,接下來的>>符號表示對Add(3, 4)進行求值,再下一行的>> 7表示上一行的求值結果,不同的求值用換行分開。可以把這里的>>理解成控制台提示符(即Terminal中的PS)。
什么是解釋器

解釋器(Interpreter)是一種程序,能夠讀入程序並直接輸出結果,如上圖。相對於編譯器(Compiler),解釋器並不會生成目標機器代碼,而是直接運行源程序,簡單來說:
解釋器是運行程序的程序。
計算器就是一個典型的解釋器,我們把數學公式(源程序)給它,它通過運行它內部的"解釋器"給我們答案。

iScheme編程語言
iScheme是什么?
- Scheme語言的一個極簡子集。
- 雖然小,但變量,算術|比較|邏輯運算,列表,函數和遞歸這些編程語言元素一應俱全。
- 非常非常慢——可以說它只是為演示本文的概念而存在。
OK,那么Scheme是什么?
- 一種函數式程序設計語言。
- 一種Lisp方言。
- 麻省理工學院程序設計入門課程使用的語言(參見MIT 6.001和《計算機程序的構造與解釋》)。

- 使用波蘭表達式(Polish Notation)。
- 更多的介紹參見Scheme編程語言。
以計算階乘為例:
C#版階乘
public static int Factorial(int n) {
if (n == 1) {
return 1;
} else {
return n * Factorial(n - 1);
}
}
iScheme版階乘
(def factorial (lambda (n) (
if (= n 1)
1
(* n (factorial (- n 1))))))
數值類型
由於iScheme只是一個用於演示的語言,所以目前只提供對整數的支持。iScheme使用C#的Int64類型作為其內部的數值表示方法。
定義變量
iScheme使用def關鍵字定義變量
>> (def a 3)
>> 3
>> a
>> 3
算術|邏輯|比較操作
與常見的編程語言(C#, Java, C++, C)不同,Scheme使用波蘭表達式,即前綴表示法。例如:
C#中的算術|邏輯|比較操作
// Arithmetic ops
a + b * c
a / (b + c + d)
// Logical ops
(cond1 && cond2) || cond3
// Comparing ops
a == b
1 < a && a < 3
對應的iScheme代碼
; Arithmetic ops
(+ a (* b c))
(/ a (+ b c d))
; Logical ops
(or (and cond1 cond2) cond3)
; Comparing ops
(= a b)
(< 1 a 3)
需要注意的幾點:
- iScheme中的操作符可以接受不止兩個參數——這在一定程度上控制了括號的數量。
- iScheme邏輯操作使用
and,or和not代替了常見的&&,||和!——這在一定程度上增強了程序的可讀性。
順序語句
iScheme使用begin關鍵字標識順序語句,並以最后一條語句的值作為返回結果。以求兩個數的平均值為例:
C#的順序語句
int a = 3;
int b = 5;
int c = (a + b) / 2;
iScheme的順序語句
(def c (begin
(def a 3)
(def b 5)
(/ (+ a b) 2)))
控制流操作
iScheme中的控制流操作只包含if。
if語句示例
>> (define a (if (> 3 2) 1 2))
>> 1
>> a
>> 1
列表類型
iScheme使用list關鍵字定義列表,並提供first關鍵字獲取列表的第一個元素;提供rest關鍵字獲取列表除第一個元素外的元素。
iScheme的列表示例
>> (define alist (list 1 2 3 4))
>> (list 1 2 3 4)
>> (first alist)
>> 1
>> (rest alist)
>> (2 3 4)
定義函數
iScheme使用func關鍵字定義函數:
iScheme的函數定義
(def square (func (x) (* x x)))
(def sum_square (func (a b) (+ (square a) (square b))))
對應的C#代碼
public static int Square (int x) {
return x * x;
}
public static int SumSquare(int a, int b) {
return Square(a) + Square(b);
}
遞歸
由於iScheme中沒有for或while這種命令式語言(Imperative Programming Language)的循環結構,遞歸成了重復操作的唯一選擇。
以計算最大公約數為例:
iScheme計算最大公約數
(def gcd (func (a b)
(if (= b 0)
a
(func (b (% a b))))))
對應的C#代碼
public static int GCD (int a, int b) {
if (b == 0) {
return a;
} else {
return GCD(b, a % b);
}
}
高階函數
和Scheme一樣,函數在iScheme中是頭等對象,這意味着:
- 可以定義一個變量為函數。
- 函數可以接受一個函數作為參數。
- 函數返回一個函數。
iScheme的高階函數示例
; Defines a multiply function.
(def mul (func (a b) (* a b)))
; Defines a list map function.
(def map (func (f alist)
(if (empty? alist)
(list )
(append (list (f (first alist))) (map f (rest alist)))
)))
; Doubles a list using map and mul.
>> (map (mul 2) (list 1 2 3))
>> (list 2 4 6)
小結
對iScheme的介紹就到這里——事實上這就是iScheme的所有元素,會不會太簡單了? -_-
接下來進入正題——從頭開始構造iScheme的解釋程序。
解釋器構造
iScheme解釋器主要分為兩部分,解析(Parse)和求值(Evaluation):
- 解析(Parse):解析源程序,並生成解釋器可以理解的中間(Intermediate)結構。這部分包含詞法分析,語法分析,語義分析,生成語法樹。
- 求值(Evaluation):執行解析階段得到的中介結構然后得到運行結果。這部分包含作用域,類型系統設計和語法樹遍歷。
詞法分析
詞法分析負責把源程序解析成一個個詞法單元(Lex),以便之后的處理。
iScheme的詞法分析極其簡單——由於iScheme的詞法元素只包含括號,空白,數字和變量名,因此C#自帶的String#Split就足夠。
iScheme的詞法分析及測試
public static String[] Tokenize(String text) {
String[] tokens = text.Replace("(", " ( ").Replace(")", " ) ").Split(" \t\r\n".ToArray(), StringSplitOptions.RemoveEmptyEntries);
return tokens;
}
// Extends String.Join for a smooth API.
public static String Join(this String separator, IEnumerable<Object> values) {
return String.Join(separator, values);
}
// Displays the lexes in a readable form.
public static String PrettyPrint(String[] lexes) {
return "[" + ", ".Join(lexes.Select(s => "'" + s + "'") + "]";
}
// Some tests
>> PrettyPrint(Tokenize("a"))
>> ['a']
>> PrettyPrint(Tokenize("(def a 3)"))
>> ['(', 'def', 'a', '3', ')']
>> PrettyPrint(Tokenize("(begin (def a 3) (* a a))"))
>> ['begin', '(', 'def', 'a', '3', ')', '(', '*', 'a', 'a', ')', ')']
注意
- 個人不喜歡
String.Join這個靜態方法,所以這里使用C#的擴展方法(Extension Methods)對String類型做了一個擴展。 - 相對於LINQ Syntax,我個人更喜歡LINQ Extension Methods,接下來的代碼也都會是這種風格。
- 不要以為詞法分析都是這么離譜般簡單!vczh的詞法分析教程給出了一個完整編程語言的詞法分析教程。
語法樹生成
得到了詞素之后,接下來就是進行語法分析。不過由於Lisp類語言的程序即是語法樹,所以語法分析可以直接跳過。
以下面的程序為例:
程序即語法樹
;
(def x (if (> a 1) a 1))
; 換一個角度看的話:
(
def
x
(
if
(
>
a
1
)
a
1
)
)
更加直觀的圖片:

這使得抽象語法樹(Abstract Syntax Tree)的構建變得極其簡單(無需考慮操作符優先級等問題),我們使用SExpression類型定義iScheme的語法樹(事實上S Expression也是Lisp表達式的名字)。
抽象語法樹的定義
public class SExpression {
public String Value { get; private set; }
public List<SExpression> Children { get; private set; }
public SExpression Parent { get; private set; }
public SExpression(String value, SExpression parent) {
this.Value = value;
this.Children = new List<SExpression>();
this.Parent = parent;
}
public override String ToString() {
if (this.Value == "(") {
return "(" + " ".Join(Children) + ")";
} else {
return this.Value;
}
}
}
然后用下面的步驟構建語法樹:
- 碰到左括號,創建一個新的節點到當前節點(
current),然后重設當前節點。 - 碰到右括號,回退到當前節點的父節點。
- 否則把為當前詞素創建節點,添加到當前節點中。
抽象語法樹的構建過程
public static SExpression ParseAsIScheme(this String code) {
SExpression program = new SExpression(value: "", parent: null);
SExpression current = program;
foreach (var lex in Tokenize(code)) {
if (lex == "(") {
SExpression newNode = new SExpression(value: "(", parent: current);
current.Children.Add(newNode);
current = newNode;
} else if (lex == ")") {
current = current.Parent;
} else {
current.Children.Add(new SExpression(value: lex, parent: current));
}
}
return program.Children[0];
}
注意
- 使用自動屬性(Auto Property),從而避免重復編寫樣版代碼(Boilerplate Code)。
- 使用命名參數(Named Parameters)提高代碼可讀性:
new SExpression(value: "", parent: null)比new SExpression("", null)可讀。 - 使用擴展方法提高代碼流暢性:
code.Tokenize().ParseAsIScheme比ParseAsIScheme(Tokenize(code))流暢。 - 大多數編程語言的語法分析不會這么簡單!如果打算實現一個類似C#的編程語言,你需要更強大的語法分析技術:
- 如果打算手寫語法分析器,可以參考LL(k), Precedence Climbing和Top Down Operator Precedence。
- 如果打算生成語法分析器,可以參考ANTLR或Bison。
作用域
作用域決定程序的運行環境。iScheme使用嵌套作用域。
以下面的程序為例
>> (def x 1)
>> 1
>> (def y (begin (def x 2) (* x x)))
>> 4
>> x
>> 1

利用C#提供的Dictionary<TKey, TValue>類型,我們可以很容易的實現iScheme的作用域SScope:
iScheme的作用域實現
public class SScope {
public SScope Parent { get; private set; }
private Dictionary<String, SObject> variableTable;
public SScope(SScope parent) {
this.Parent = parent;
this.variableTable = new Dictionary<String, SObject>();
}
public SObject Find(String name) {
SScope current = this;
while (current != null) {
if (current.variableTable.ContainsKey(name)) {
return current.variableTable[name];
}
current = current.Parent;
}
throw new Exception(name + " is not defined.");
}
public SObject Define(String name, SObject value) {
this.variableTable.Add(name, value);
return value;
}
}
類型實現
iScheme的類型系統極其簡單——只有數值,Bool,列表和函數,考慮到他們都是iScheme里面的值對象(Value Object),為了便於對它們進行統一處理,這里為它們設置一個統一的父類型SObject:
public class SObject { }
數值類型
iScheme的數值類型只是對.Net中Int64(即C#里的long)的簡單封裝:
public class SNumber : SObject {
private readonly Int64 value;
public SNumber(Int64 value) {
this.value = value;
}
public override String ToString() {
return this.value.ToString();
}
public static implicit operator Int64(SNumber number) {
return number.value;
}
public static implicit operator SNumber(Int64 value) {
return new SNumber(value);
}
}
注意這里使用了C#的隱式操作符重載,這使得我們可以:
SNumber foo = 30;
SNumber bar = 40;
SNumber foobar = foo * bar;
而不必:
SNumber foo = new SNumber(value: 30);
SNumber bar = new SNumber(value: 40);
SNumber foobar = new SNumber(value: foo.Value * bar.Value);
為了方便,這里也為SObject增加了隱式操作符重載(盡管Int64可以被轉換為SNumber且SNumber繼承自SObject,但.Net無法直接把Int64轉化為SObject):
public class SObject {
...
public static implicit operator SObject(Int64 value) {
return (SNumber)value;
}
}
Bool類型
由於Bool類型只有True和False,所以使用靜態對象就足矣。
public class SBool : SObject {
public static readonly SBool False = new SBool();
public static readonly SBool True = new SBool();
public override String ToString() {
return ((Boolean)this).ToString();
}
public static implicit operator Boolean(SBool value) {
return value == SBool.True;
}
public static implicit operator SBool(Boolean value) {
return value ? True : False;
}
}
這里同樣使用了C#的隱式操作符重載,這使得我們可以:
SBool foo = a > 1;
if (foo) {
// Do something...
}
而不用
SBool foo = a > 1 ? SBool.True: SBool.False;
if (foo == SBool.True) {
// Do something...
}
同樣,為SObject增加隱式操作符重載:
public class SObject {
...
public static implicit operator SObject(Boolean value) {
return (SBool)value;
}
}
列表類型
iScheme使用.Net中的IEnumberable<T>實現列表類型SList:
public class SList : SObject, IEnumerable<SObject> {
private readonly IEnumerable<SObject> values;
public SList(IEnumerable<SObject> values) {
this.values = values;
}
public override String ToString() {
return "(list " + " ".Join(this.values) + ")";
}
public IEnumerator<SObject> GetEnumerator() {
return this.values.GetEnumerator();
}
IEnumerator IEnumerable.GetEnumerator() {
return this.values.GetEnumerator();
}
}
實現IEnumerable<SObject>后,就可以直接使用LINQ的一系列擴展方法,十分方便。
函數類型
iScheme的函數類型(SFunction)由三部分組成:
- 函數體:即對應的
SExpression。 - 參數列表。
- 作用域:函數擁有自己的作用域
SFunction的實現
public class SFunction : SObject {
public SExpression Body { get; private set; }
public String[] Parameters { get; private set; }
public SScope Scope { get; private set; }
public Boolean IsPartial {
get {
return this.ComputeFilledParameters().Length.InBetween(1, this.Parameters.Length);
}
}
public SFunction(SExpression body, String[] parameters, SScope scope) {
this.Body = body;
this.Parameters = parameters;
this.Scope = scope;
}
public SObject Evaluate() {
String[] filledParameters = this.ComputeFilledParameters();
if (filledParameters.Length < Parameters.Length) {
return this;
} else {
return this.Body.Evaluate(this.Scope);
}
}
public override String ToString() {
return String.Format("(func ({0}) {1})",
" ".Join(this.Parameters.Select(p => {
SObject value = null;
if ((value = this.Scope.FindInTop(p)) != null) {
return p + ":" + value;
}
return p;
})), this.Body);
}
private String[] ComputeFilledParameters() {
return this.Parameters.Where(p => Scope.FindInTop(p) != null).ToArray();
}
}
需要注意的幾點
- iScheme支持部分求值(Partial Evaluation),這意味着:
部分求值
>> (def mul (func (a b) (* a b)))
>> (func (a b) (* a b))
>> (mul 3 4)
>> 12
>> (mul 3)
>> (func (a:3 b) (* a b))
>> ((mul 3) 4)
>> 12
也就是說,當SFunction的實際參數(Argument)數量小於其形式參數(Parameter)的數量時,它依然是一個函數,無法被求值。
這個功能有什么用呢?生成高階函數。有了部分求值,我們就可以使用
(def mul (func (a b) (* a b)))
(def mul3 (mul 3))
>> (mul3 3)
>> 9
而不用專門定義一個生成函數:
(def times (func (n) (func (n x) (* n x)) ) )
(def mul3 (times 3))
>> (mul3 3)
>> 9
SFunction#ToString可以將其自身還原為源代碼——從而大大簡化了iScheme的理解和測試。
內置操作
iScheme的內置操作有四種:算術|邏輯|比較|列表操作。
我選擇了表達力(Expressiveness)強的lambda方法表來定義內置操作:
首先在SScope中添加靜態字段builtinFunctions,以及對應的訪問屬性BuiltinFunctions和操作方法BuildIn。
public class SScope {
private static Dictionary<String, Func<SExpression[], SScope, SObject>> builtinFunctions =
new Dictionary<String, Func<SExpression[], SScope, SObject>>();
public static Dictionary<String, Func<SExpression[], SScope, SObject>> BuiltinFunctions {
get { return builtinFunctions; }
}
// Dirty HACK for fluent API.
public SScope BuildIn(String name, Func<SExpression[], SScope, SObject> builtinFuntion) {
SScope.builtinFunctions.Add(name, builtinFuntion);
return this;
}
}
注意:
Func<T1, T2, TRESULT>是C#提供的委托類型,表示一個接受T1和T2,返回TRESULT- 這里有一個小HACK,使用實例方法(Instance Method)修改靜態成員(Static Member),從而實現一套流暢的API(參見Fluent Interface)。
接下來就可以這樣定義內置操作:
new SScope(parent: null)
.BuildIn("+", addMethod)
.BuildIn("-", subMethod)
.BuildIn("*", mulMethod)
.BuildIn("/", divMethod);
一目了然。
斷言(Assertion)擴展
為了便於進行斷言,我對Boolean類型做了一點點擴展。
public static void OrThrows(this Boolean condition, String message = null) {
if (!condition) { throw new Exception(message ?? "WTF"); }
}
從而可以寫出流暢的斷言:
(a < 3).OrThrows("Value must be less than 3.");
而不用
if (a < 3) {
throw new Exception("Value must be less than 3.");
}
算術操作
iScheme算術操作包含+ - * / %五個操作,它們僅應用於數值類型(也就是SNumber)。
從加減法開始:
.BuildIn("+", (args, scope) => {
var numbers = args.Select(obj => obj.Evaluate(scope)).Cast<SNumber>();
return numbers.Sum(n => n);
})
.BuildIn("-", (args, scope) => {
var numbers = args.Select(obj => obj.Evaluate(scope)).Cast<SNumber>().ToArray();
Int64 firstValue = numbers[0];
if (numbers.Length == 1) {
return -firstValue;
}
return firstValue - numbers.Skip(1).Sum(s => s);
})
注意到這里有一段重復邏輯負責轉型求值(Cast then Evaluation),考慮到接下來還有不少地方要用這個邏輯,我把這段邏輯抽象成擴展方法:
public static IEnumerable<T> Evaluate<T>(this IEnumerable<SExpression> expressions, SScope scope)
where T : SObject {
return expressions.Evaluate(scope).Cast<T>();
}
public static IEnumerable<SObject> Evaluate(this IEnumerable<SExpression> expressions, SScope scope) {
return expressions.Select(exp => exp.Evaluate(scope));
}
然后加減法就可以如此定義:
.BuildIn("+", (args, scope) => (args.Evaluate<SNumber>(scope).Sum(s => s)))
.BuildIn("-", (args, scope) => {
var numbers = args.Evaluate<SNumber>(scope).ToArray();
Int64 firstValue = numbers[0];
if (numbers.Length == 1) {
return -firstValue;
}
return firstValue - numbers.Skip(1).Sum(s => s);
})
乘法,除法和求模定義如下:
.BuildIn("*", (args, scope) => args.Evaluate<SNumber>(scope).Aggregate((a, b) => a * b))
.BuildIn("/", (args, scope) => {
var numbers = args.Evaluate<SNumber>(scope).ToArray();
Int64 firstValue = numbers[0];
return firstValue / numbers.Skip(1).Aggregate((a, b) => a * b);
})
.BuildIn("%", (args, scope) => {
(args.Length == 2).OrThrows("Parameters count in mod should be 2");
var numbers = args.Evaluate<SNumber>(scope).ToArray();
return numbers[0] % numbers[1];
})
邏輯操作
iScheme邏輯操作包括and,or和not,即與,或和非。
需要注意的是iScheme邏輯操作是短路求值(Short-circuit evaluation),也就是說:
(and condA condB),如果condA為假,那么整個表達式為假,無需對condB求值。(or condA condB),如果condA為真,那么整個表達式為真,無需對condB求值。
此外和+ - * /一樣,and和or也可以接收任意數量的參數。
需求明確了接下來就是實現,iScheme的邏輯操作實現如下:
.BuildIn("and", (args, scope) => {
(args.Length > 0).OrThrows();
return !args.Any(arg => !(SBool)arg.Evaluate(scope));
})
.BuildIn("or", (args, scope) => {
(args.Length > 0).OrThrows();
return args.Any(arg => (SBool)arg.Evaluate(scope));
})
.BuildIn("not", (args, scope) => {
(args.Length == 1).OrThrows();
return args[0].Evaluate(scope);
})
比較操作
iScheme的比較操作包括= < > >= <=,需要注意下面幾點:
=是比較操作而非賦值操作。- 同算術操作一樣,它們應用於數值類型,並支持任意數量的參數。
=的實現如下:
.BuildIn("=", (args, scope) => {
(args.Length > 1).OrThrows("Must have more than 1 argument in relation operation.");
SNumber current = (SNumber)args[0].Evaluate(scope);
foreach (var arg in args.Skip(1)) {
SNumber next = (SNumber)arg.Evaluate(scope);
if (current == next) {
current = next;
} else {
return false;
}
}
return true;
})
可以預見所有的比較操作都將使用這段邏輯,因此把這段比較邏輯抽象成一個擴展方法:
public static SBool ChainRelation(this SExpression[] expressions, SScope scope, Func<SNumber, SNumber, Boolean> relation) {
(expressions.Length > 1).OrThrows("Must have more than 1 parameter in relation operation.");
SNumber current = (SNumber)expressions[0].Evaluate(scope);
foreach (var obj in expressions.Skip(1)) {
SNumber next = (SNumber)obj.Evaluate(scope);
if (relation(current, next)) {
current = next;
} else {
return SBool.False;
}
}
return SBool.True;
}
接下來就可以很方便的定義比較操作:
.BuildIn("=", (args, scope) => args.ChainRelation(scope, (s1, s2) => (Int64)s1 == (Int64)s2))
.BuildIn(">", (args, scope) => args.ChainRelation(scope, (s1, s2) => s1 > s2))
.BuildIn("<", (args, scope) => args.ChainRelation(scope, (s1, s2) => s1 < s2))
.BuildIn(">=", (args, scope) => args.ChainRelation(scope, (s1, s2) => s1 >= s2))
.BuildIn("<=", (args, scope) => args.ChainRelation(scope, (s1, s2) => s1 <= s2))
注意=操作的實現里面有Int64強制轉型——因為我們沒有重載SNumber#Equals,所以無法直接通過==來比較兩個SNumber。
列表操作
iScheme的列表操作包括first,rest,empty?和append,分別用來取列表的第一個元素,除第一個以外的部分,判斷列表是否為空和拼接列表。
first和rest操作如下:
.BuildIn("first", (args, scope) => {
SList list = null;
(args.Length == 1 && (list = (args[0].Evaluate(scope) as SList)) != null).OrThrows("<first> must apply to a list.");
return list.First();
})
.BuildIn("rest", (args, scope) => {
SList list = null;
(args.Length == 1 && (list = (args[0].Evaluate(scope) as SList)) != null).OrThrows("<rest> must apply to a list.");
return new SList(list.Skip(1));
})
又發現相當的重復邏輯——判斷參數是否是一個合法的列表,重復代碼很邪惡,所以這里把這段邏輯抽象為擴展方法:
public static SList RetrieveSList(this SExpression[] expressions, SScope scope, String operationName) {
SList list = null;
(expressions.Length == 1 && (list = (expressions[0].Evaluate(scope) as SList)) != null)
.OrThrows("<" + operationName + "> must apply to a list");
return list;
}
有了這個擴展方法,接下來的列表操作就很容易實現:
.BuildIn("first", (args, scope) => args.RetrieveSList(scope, "first").First())
.BuildIn("rest", (args, scope) => new SList(args.RetrieveSList(scope, "rest").Skip(1)))
.BuildIn("append", (args, scope) => {
SList list0 = null, list1 = null;
(args.Length == 2
&& (list0 = (args[0].Evaluate(scope) as SList)) != null
&& (list1 = (args[1].Evaluate(scope) as SList)) != null).OrThrows("Input must be two lists");
return new SList(list0.Concat(list1));
})
.BuildIn("empty?", (args, scope) => args.RetrieveSList(scope, "empty?").Count() == 0)
測試
iScheme的內置操作完成之后,就可以測試下初步成果了。
首先添加基於控制台的分析/求值(Parse/Evaluation)循環:
public static void KeepInterpretingInConsole(this SScope scope, Func<String, SScope, SObject> evaluate) {
while (true) {
try {
Console.ForegroundColor = ConsoleColor.Gray;
Console.Write(">> ");
String code;
if (!String.IsNullOrWhiteSpace(code = Console.ReadLine())) {
Console.ForegroundColor = ConsoleColor.Green;
Console.WriteLine(">> " + evaluate(code, scope));
}
} catch (Exception ex) {
Console.ForegroundColor = ConsoleColor.Red;
Console.WriteLine(">> " + ex.Message);
}
}
}
然后在SExpression#Evaluate中補充調用代碼:
public override SObject Evaluate(SScope scope) {
if (this.Children.Count == 0) {
Int64 number;
if (Int64.TryParse(this.Value, out number)) {
return number;
}
} else {
SExpression first = this.Children[0];
if (SScope.BuiltinFunctions.ContainsKey(first.Value)) {
var arguments = this.Children.Skip(1).Select(node => node.Evaluate(scope)).ToArray();
return SScope.BuiltinFunctions[first.Value](arguments, scope);
}
}
throw new Exception("THIS IS JUST TEMPORARY!");
}
最后在Main中調用該解釋/求值循環:
static void Main(String[] cmdArgs) {
new SScope(parent: null)
.BuildIn("+", (args, scope) => (args.Evaluate<SNumber>(scope).Sum(s => s)))
// 省略若干內置函數
.BuildIn("empty?", (args, scope) => args.RetrieveSList("empty?").Count() == 0)
.KeepInterpretingInConsole((code, scope) => code.ParseAsScheme().Evaluate(scope));
}
運行程序,輸入一些簡單的表達式:

看樣子還不錯 :-)
接下來開始實現iScheme的執行(Evaluation)邏輯。
執行邏輯
iScheme的執行就是把語句(SExpression)在作用域(SScope)轉化成對象(SObject)並對作用域(SScope)產生作用的過程,如下圖所示。

iScheme的執行邏輯就在SExpression#Evaluate里面:
public class SExpression {
// ...
public override SObject Evaluate(SScope scope) {
// TODO: Todo your ass.
}
}
首先明確輸入和輸出:
- 處理字面量(Literals):
3;和具名量(Named Values):x - 處理
if:(if (< a 3) 3 a) - 處理
def:(def pi 3.14) - 處理
begin:(begin (def a 3) (* a a)) - 處理
func:(func (x) (* x x)) - 處理內置函數調用:
(+ 1 2 3 (first (list 1 2))) - 處理自定義函數調用:
(map (func (x) (* x x)) (list 1 2 3))
此外,情況1和2中的SExpression沒有子節點,可以直接讀取其Value進行求值,余下的情況需要讀取其Children進行求值。
首先處理沒有子節點的情況:
處理字面量和具名量
if (this.Children.Count == 0) {
Int64 number;
if (Int64.TryParse(this.Value, out number)) {
return number;
} else {
return scope.Find(this.Value);
}
}
接下來處理帶有子節點的情況:
首先獲得當前節點的第一個節點:
SExpression first = this.Children[0];
然后根據該節點的Value決定下一步操作:
處理if
if語句的處理方法很直接——根據判斷條件(condition)的值判斷執行哪條語句即可:
if (first.Value == "if") {
SBool condition = (SBool)(this.Children[1].Evaluate(scope));
return condition ? this.Children[2].Evaluate(scope) : this.Children[3].Evaluate(scope);
}
處理def
直接定義即可:
else if (first.Value == "def") {
return scope.Define(this.Children[1].Value, this.Children[2].Evaluate(new SScope(scope)));
}
處理begin
遍歷語句,然后返回最后一條語句的值:
else if (first.Value == "begin") {
SObject result = null;
foreach (SExpression statement in this.Children.Skip(1)) {
result = statement.Evaluate(scope);
}
return result;
}
處理func
利用SExpression構建SFunction,然后返回:
else if (first.Value == "func") {
SExpression body = this.Children[2];
String[] parameters = this.Children[1].Children.Select(exp => exp.Value).ToArray();
SScope newScope = new SScope(scope);
return new SFunction(body, parameters, newScope);
}
處理list
首先把獲得list里元素的值,然后創建SList:
else if (first.Value == "list") {
return new SList(this.Children.Skip(1).Select(exp => exp.Evaluate(scope)));
}
處理內置操作
首先對參數求值,然后調用對應的內置函數:
else if (SScope.BuiltinFunctions.ContainsKey(first.Value)) {
var arguments = this.Children.Skip(1).Select(node => node.Evaluate(scope)).ToArray();
return SScope.BuiltinFunctions[first.Value](arguments, scope);
}
處理自定義函數調用
自定義函數調用有兩種情況:
- 非具名函數調用:
((func (x) (* x x)) 3) - 具名函數調用:
(square 3)
調用自定義函數時應使用新的作用域,所以為SFunction增加Update方法:
public SFunction Update(SObject[] arguments) {
var existingArguments = this.Parameters.Select(p => this.Scope.FindInTop(p)).Where(obj => obj != null);
var newArguments = existingArguments.Concat(arguments).ToArray();
SScope newScope = this.Scope.Parent.SpawnScopeWith(this.Parameters, newArguments);
return new SFunction(this.Body, this.Parameters, newScope);
}
為了便於創建自定義作用域,並判斷函數的參數是否被賦值,為SScope增加SpawnScopeWith和FindInTop方法:
public SScope SpawnScopeWith(String[] names, SObject[] values) {
(names.Length >= values.Length).OrThrows("Too many arguments.");
SScope scope = new SScope(this);
for (Int32 i = 0; i < values.Length; i++) {
scope.variableTable.Add(names[i], values[i]);
}
return scope;
}
public SObject FindInTop(String name) {
if (variableTable.ContainsKey(name)) {
return variableTable[name];
}
return null;
}
下面是函數調用的實現:
else {
SFunction function = first.Value == "(" ? (SFunction)first.Evaluate(scope) : (SFunction)scope.Find(first.Value);
var arguments = this.Children.Skip(1).Select(s => s.Evaluate(scope)).ToArray();
return function.Update(arguments).Evaluate();
}
完整的求值代碼
綜上所述,求值代碼如下
public SObject Evaluate(SScope scope) {
if (this.Children.Count == 0) {
Int64 number;
if (Int64.TryParse(this.Value, out number)) {
return number;
} else {
return scope.Find(this.Value);
}
} else {
SExpression first = this.Children[0];
if (first.Value == "if") {
SBool condition = (SBool)(this.Children[1].Evaluate(scope));
return condition ? this.Children[2].Evaluate(scope) : this.Children[3].Evaluate(scope);
} else if (first.Value == "def") {
return scope.Define(this.Children[1].Value, this.Children[2].Evaluate(new SScope(scope)));
} else if (first.Value == "begin") {
SObject result = null;
foreach (SExpression statement in this.Children.Skip(1)) {
result = statement.Evaluate(scope);
}
return result;
} else if (first.Value == "func") {
SExpression body = this.Children[2];
String[] parameters = this.Children[1].Children.Select(exp => exp.Value).ToArray();
SScope newScope = new SScope(scope);
return new SFunction(body, parameters, newScope);
} else if (first.Value == "list") {
return new SList(this.Children.Skip(1).Select(exp => exp.Evaluate(scope)));
} else if (SScope.BuiltinFunctions.ContainsKey(first.Value)) {
var arguments = this.Children.Skip(1).Select(node => node.Evaluate(scope)).ToArray();
return SScope.BuiltinFunctions[first.Value](arguments, scope);
} else {
SFunction function = first.Value == "(" ? (SFunction)first.Evaluate(scope) : (SFunction)scope.Find(first.Value);
var arguments = this.Children.Skip(1).Select(s => s.Evaluate(scope)).ToArray();
return function.Update(arguments).Evaluate();
}
}
}
去除尾遞歸
到了這里iScheme解釋器就算完成了。但仔細觀察求值過程還是有一個很大的問題,尾遞歸調用:
- 處理
if的尾遞歸調用。 - 處理函數調用中的尾遞歸調用。
Alex Stepanov曾在Elements of Programming中介紹了一種將嚴格尾遞歸調用(Strict tail-recursive call)轉化為迭代的方法,細節恕不贅述,以階乘為例:
// Recursive factorial.
int fact (int n) {
if (n == 1)
return result;
return n * fact(n - 1);
}
// First tranform to tail recursive version.
int fact (int n, int result) {
if (n == 1)
return result;
else {
result *= n;
n -= 1;
return fact(n, result);// This is a strict tail-recursive call which can be omitted
}
}
// Then transform to iterative version.
int fact (int n, int result) {
while (true) {
if (n == 1)
return result;
else {
result *= n;
n -= 1;
}
}
}
應用這種方法到SExpression#Evaluate,得到轉換后的版本:
public SObject Evaluate(SScope scope) {
SExpression current = this;
while (true) {
if (current.Children.Count == 0) {
Int64 number;
if (Int64.TryParse(current.Value, out number)) {
return number;
} else {
return scope.Find(current.Value);
}
} else {
SExpression first = current.Children[0];
if (first.Value == "if") {
SBool condition = (SBool)(current.Children[1].Evaluate(scope));
current = condition ? current.Children[2] : current.Children[3];
} else if (first.Value == "def") {
return scope.Define(current.Children[1].Value, current.Children[2].Evaluate(new SScope(scope)));
} else if (first.Value == "begin") {
SObject result = null;
foreach (SExpression statement in current.Children.Skip(1)) {
result = statement.Evaluate(scope);
}
return result;
} else if (first.Value == "func") {
SExpression body = current.Children[2];
String[] parameters = current.Children[1].Children.Select(exp => exp.Value).ToArray();
SScope newScope = new SScope(scope);
return new SFunction(body, parameters, newScope);
} else if (first.Value == "list") {
return new SList(current.Children.Skip(1).Select(exp => exp.Evaluate(scope)));
} else if (SScope.BuiltinFunctions.ContainsKey(first.Value)) {
var arguments = current.Children.Skip(1).Select(node => node.Evaluate(scope)).ToArray();
return SScope.BuiltinFunctions[first.Value](arguments, scope);
} else {
SFunction function = first.Value == "(" ? (SFunction)first.Evaluate(scope) : (SFunction)scope.Find(first.Value);
var arguments = current.Children.Skip(1).Select(s => s.Evaluate(scope)).ToArray();
SFunction newFunction = function.Update(arguments);
if (newFunction.IsPartial) {
return newFunction.Evaluate();
} else {
current = newFunction.Body;
scope = newFunction.Scope;
}
}
}
}
}
一些演示
基本的運算

高階函數

回顧
小結
除去注釋(貌似沒有注釋-_-),iScheme的解釋器的實現代碼一共333行——包括空行,括號等元素。
在這300余行代碼里,實現了函數式編程語言的大部分功能:算術|邏輯|運算,嵌套作用域,順序語句,控制語句,遞歸,高階函數,部分求值。
與我兩年之前實現的Scheme方言Lucida相比,iScheme除了沒有字符串類型,其它功能和Lucida相同,而代碼量只是前者的八分之一,編寫時間是前者的十分之一(Lucida用了兩天,iScheme用了一個半小時),可擴展性和易讀性均秒殺前者。這說明了:
- 代碼量不能說明問題。
- 不同開發者生產效率的差別會非常巨大。
- 這兩年我還是學到了一點東西的。-_-
一些設計決策
使用擴展方法提高可讀性
例如,通過定義OrThrows
public static void OrThrows(this Boolean condition, String message = null) {
if (!condition) { throw new Exception(message ?? "WTF"); }
}
寫出流暢的斷言:
(a < 3).OrThrows("Value must be less than 3.");
聲明式編程風格
以Main函數為例:
static void Main(String[] cmdArgs) {
new SScope(parent: null)
.BuildIn("+", (args, scope) => (args.Evaluate<SNumber>(scope).Sum(s => s)))
// Other build
.BuildIn("empty?", (args, scope) => args.RetrieveSList("empty?").Count() == 0)
.KeepInterpretingInConsole((code, scope) => code.ParseAsIScheme().Evaluate(scope));
}
非常直觀,而且
- 如果需要添加新的操作,添加寫一行
BuildIn即可。 - 如果需要使用其它語法,替換解析函數
ParseAsIScheme即可。 - 如果需要從文件讀取代碼,替換執行函數
KeepInterpretingInConsole即可。
不足
當然iScheme還是有很多不足:
語言特性方面:
- 缺乏實用類型:沒有
Double和String這兩個關鍵類型,更不用說復合類型(Compound Type)。 - 沒有IO操作,更不要說網絡通信。
- 效率低下:盡管去除尾遞歸挽回了一點效率,但iScheme的執行效率依然慘不忍睹。
- 錯誤信息:錯誤信息基本不可讀,往往出錯了都不知道從哪里找起。
- 不支持延續調用(Call with current continuation,即call/cc)。
- 沒有並發。
- 各種bug:比如可以定義文本量,無法重載默認操作,空括號被識別等等。
設計實現方面:
- 使用了可變(Mutable)類型。
- 沒有任何注釋(因為覺得沒有必要 -_-)。
- 糟糕的類型系統:Lisp類語言中的數據和程序可以不分彼此,而iScheme的實現中確把數據和程序分成了
SObject和SExpression,現在我依然沒有找到一個融合他們的好辦法。
這些就留到以后慢慢處理了 -_-(TODO YOUR ASS)
延伸閱讀
書籍
- Compilers: Priciples, Techniques and Tools Principles: http://www.amazon.co.uk/Compilers-Principles-Techniques-V-Aho/dp/1292024348/
- Language Implementation Patterns: http://www.amazon.co.uk/Language-Implementation-Patterns-Domain-Specific-Programming/dp/193435645X/
- *The Definitive ANTLR4 Reference: http://www.amazon.co.uk/Definitive-ANTLR-4-Reference/dp/1934356999/
- Engineering a compiler: http://www.amazon.co.uk/Engineering-Compiler-Keith-Cooper/dp/012088478X/
- Flex & Bison: http://www.amazon.co.uk/flex-bison-John-Levine/dp/0596155972/
- *Writing Compilers and Interpreters: http://www.amazon.co.uk/Writing-Compilers-Interpreters-Software-Engineering/dp/0470177071/
- Elements of Programming: http://www.amazon.co.uk/Elements-Programming-Alexander-Stepanov/dp/032163537X/
注:帶*號的沒有中譯本。
文章
大多和編譯前端相關,自己沒時間也沒能力研究后端。-_-
為什么編譯技術很重要?看看Steve Yegge(沒錯,就是被王垠黑過的Google高級技術工程師)是怎么說的(需要翻牆)。
http://steve-yegge.blogspot.co.uk/2007/06/rich-programmer-food.html
本文重點參考的Peter Norvig的兩篇文章:
- How to write a lisp interpreter in Python: http://norvig.com/lispy.html
- An even better lisp interpreter in Python: http://norvig.com/lispy2.html
幾種簡單實用的語法分析技術:
- LL(k) Parsing:
- Top Down Operator Precendence:http://javascript.crockford.com/tdop/tdop.html
- Precendence Climbing Parsing:http://en.wikipedia.org/wiki/Operator-precedence_parser
關於本文作者
曾經的Windows/.Net/C#程序員,研究生畢業后糊里糊塗變成Linux/Java開發者。所謂一入Java深似海,現在無比懷念使用C#的歲月。
對解釋器/編譯器感興趣,現在正在自學Coursera的Compiler課程。
歡迎來信交流技術:lunageek#gmail#com
