#編譯原理# 詞法分析（三）第二部分

本文轉載自查看原文 2019-10-06 15:37 497 study/ 課程內容/ 學習筆記/ 北航/ 詞法分析/ 編譯原理

詞法分析

編譯原理筆記第三部分，由於內容過長所以分為了兩部分，跳轉鏈接在總閱讀目錄處，內容參考：北航軟院教師邵兵課堂課件及內容、張莉著《編譯原理及編譯程序構造》、國防工業出版社的《編譯原理——學習指導與典型題解析》、AlvinZH的學習筆記以及個人理解

目前是包含了全部內容的版本，后續會推出精簡版和復習知識點版

如有建議或錯誤錯誤歡迎在評論中指出或聯系我：QQ：847590417

總閱讀目錄

本章總內容

第一部分：

3.1 詞法分析程序的功能及實現方案

3.2 單詞的種類及詞法分析程序的輸出形式

3.3 正則文法及狀態圖

3.4 正則表達式與有窮自動機FA

第二部分：

3.5 有窮自動機、正則文法、正則表達式的轉化

本章總內容

重點：詞法分析介紹、詞法分析單詞種類划分、正則文法、狀態圖、正則表達式、自動機、自動機的轉化、表達式文法和自動機的轉化、詞法分析程序的設計實現，詞法分析程序自動生成器LEX。

之前的內容

詞法分析介紹、詞法分析單詞種類划分、正則文法、狀態圖、正則表達式、自動機、自動機的轉化會在第三章的第一部分進行介紹。

3.5 有窮自動機、正則文法、正則表達式的轉化

轉化流程圖：

以下轉換的順序是按圖上箭頭的順序進行排序的（NFA包含DFA，所以和NFA的轉化可能稱之為DFA的轉化）。

0.正則文法G轉狀態圖

繪制左線性文法的狀態圖（狀態圖只能用於左線性文法，這是和后面的DFA的明顯區別）狀態圖的繪制沒有嚴格規定（右線性的暫時不做考慮）

1.文法的非終結符號是一個個的結點

2.設一開始狀態S（句子）

3.對規則Q::=t（t為終結符），需要一條從S到Q的一條弧，弧上標記為t

4.對Q::=Rt，畫一條從R到Q的弧，弧上標記為t

（倒，誰規約於誰，誰指向誰）

5.根據自動機方法，可加上開始狀態和終止狀態標志，識別符號作終止狀態，用雙圓圈標識

1.DFA M轉正則文法 G

規則：

1.對(A,t) = B，寫成：A→tB（只推右線性，左線性在推導時可能遞歸）

2.對每個可接受狀態Z（終止狀態），增加產生式Z→ε

3.有窮自動機的初態對應文法開始符號，有窮自動機的字母表為文法的終結符號集

例：

2.正則文法 G轉DFA M

規則：（和狀態圖的轉化類似）

1.字母表（弧上的所有符號組成的表）和G的終結符號相同

2.為G中的每個非終結符生成M的一個狀態，G大的開始符號S是開始狀態S

3.增加一個新狀態Z，作為NFA的終態

4.對G中的形如A→tB，其中t為終結符或空字符，A和B為非終結符號的產生式，構造M的一個轉換函數(A,t)=B

4.對G中形如A→t的產生式，構造M的一個轉換函數(A,t)=Z

例：

3.正則表達式轉DFA M

他們是等價的

定理：在Σ上的一個字集V，V是Σ*的子集，是正則集合，當且僅當存在一個DFA M使V=L(M).

規則：

一個正則表達式，構建時從左到右拆解分析即可

a. 對空集φ不作處理

b. 對正則式ε，由x射出符號為空符號的弧到y

c. 對字母表中存在的字母符號如正則式a，由x射出符號為該字符的弧到y

（x,y為狀態，只是構建的臨時初態終態，符號即是正則表達式中讀取到的字符（從左到右分解））

多個正則式，例如s,t，他們的NFA為Ns和Nt

a. R=s|t

b. R=st

c. R=s*

d. R=(s)，和R=S的NFA一樣

例：

1.從里開始構建NFA

2.從外開始構建

4.DFA M轉正則表達式

規則：

（1）在M上加兩個結點x,y。從x用空符號弧連接到M的所有初態節點，從M的所有終態節點用空符號弧連接到y，形成和M等價的的M’，此時只有一個初態一個終態。

（2）消除M’中的其他節點（除了x，y）

1.鄰合並

2.並變或

3.遞歸加邊加星號

即正則表達式轉NFA倒過來

例：

5.正則文法 G轉正則表達式

三個規則，可將正則文法轉換為一個只剩一個開始符號的產生式，並且右側不含非終結符，僅含對應的表達式。轉換后的產生式應用擴充的BNF表示，而在標識符好的0~n次重復時應該用*代替

（1）代入規則：對A→xB，B→y轉化為A→xy

（2）消除遞歸規則：對A→xA|y轉化為A→x*y

（3）BNF規則：對A→x，A→y轉化為A→x|y

注:左線性的話，對A→Ax|y轉化為A→yx*

例如：

例：

6.正則表達式轉正則文法 G

規則如下：

（1）對任何正則表達式r，選擇一個非終結符S作為識別符號，並產生產生式S→r

（2）若x，y是正則表達式：

1.對A→xy，轉化為A→xB，B→y，B為新的非終結符

2.對A→x*y，轉化為A→xA，A→y（注：對A→x*y，則需要轉化為A→xA，A→ε）

3.對A→x|y的產生式

例如：

例：

左線性的話：（會死循環）

3.6 詞法分析程序的設計與實現

3.6.1 詞法分析原理

說明：

1.對於注釋符號是不輸出的

2.各單詞之間用空白符號（空格、制表、回車）分開

在得知文法后

需要根據文法將所有終結符號的轉化過程給繪制出來（初始符號就是每個終結符號）

這里出現的其他字符，實際是任意字符，例如讀到+后再讀入+，后一個+相對於前一個也是其他字符。

然后將這些轉化過程都結合起來，初始狀態當做傳入的符號串。合並后還需要注意：對重復符號進行特殊處理（單雙字符分界符處理合並），還需要一個出錯的狀態（符號串不屬於任一流程）。

3.6.2 詞法分析程序的構造

不同狀態的做法

開始狀態：利用程序依次讀入字符，讀到空字符就跳過，然后對每一個非空字符串轉到程序中進行處理。

標識符狀態：在組合成標識符后，判斷是保留字還是用戶自定義的

整數狀態：組成數字后還要做數字字符到二進制數值的轉換

單字符分界符狀態：判斷對應的類別編碼即可

冒號狀態：需要和下一個字符結合進行判斷，是單字符還是雙字符

斜豎狀態：同樣需要判斷后面的字符，作為字符還是跳過注釋

錯誤狀態：打印錯誤信息並跳過

注：在詞法分析時為了判別是否已經讀到了單詞的右端符號，有時候需要向前多讀一個字符，例如在標識符和無符號整數等狀態。這是為了防止跳過某個不該跳過的字符。所以在返回調用程序前應該將讀字符指針后退一個字符。（字符指針后退實際就是退到前一個字符，因為在讀取字符時可能多讀一個字符，導致后面讀取時這個字符就被忽略了，所以需要后退（字符指針是一直前進的，后退就是向上一個讀的字符吐出來一個））