正則表達式 \ 和 原生字符串 [轉]【源忘記了】


使用python寫字符串常量時,raw string是個很好用的東東,比如在C里我要寫一個Windows下的路徑,得這么
寫:

char *path = "C:\\mydir\\myfile.txt";

用"\"來轉義成一個反斜杠字符。而在python下用raw string就不用這么麻煩了:

path = r"C:\mydir\myfile.txt"

一個r搞定,是不是很簡單?

真的這么簡單嗎?未必。試試如果要指定一個目錄名呢?

>>> path = r"C:\mydir\mysubdir\"
   File "<string>", line 1
     path = r"C:\mydir\mysubdir\"
                              ^
SyntaxError: EOL while scanning single-quoted string

出錯了吧。

這是一個常見的陷阱,在使用raw string時,反斜杠雖然不再做轉義用,但它仍然保留了一部分“魔力”——保護字符串。如

>>> print r"abc\"xyz"
abc\"xyz

在反斜杠之后的那個引號由於反斜杠的魔力,不被視為字符串終結。那么對應到開頭那個路徑r"C:\mydir\mysubdir",最后那個引號也是由於反斜杠的魔力,不被視為終結,python認為其后應該還有東西,結果沒有,就報錯了。

那豈不是用raw string寫Windows路徑就很不方便了嗎?

答案是:raw string本來就不是為了方便寫Windows路徑而設計的,而是為了方便寫正則表達式設計的。在正則表達式中,反斜杠是轉義字符,因此不可能出現以反斜杠結尾的正則表達式。

Windows路徑的“正統”寫法應該是:

path = os.path.normcase("c:/mydir/mysubdir/")

os.path.normcase在Windows平台下會自動把正斜杠轉換成反斜杠。

由於正則表達式使用反斜杠來轉義特殊字符,而python自身處理字符串時,反斜杠也是用於轉義字符,這樣就產生了一個雙重轉換的問題,要匹配字符串中1個反斜杠應該怎么寫正則表達式?"\",這樣行嗎?試試就知道了,re模塊拋異常了,因為"\"就是一個反斜杠,對於正則表達式解析器來說,是一個轉義字符,但是后面啥也沒有,自然就報錯了,"\"三個肯定是不行的,試試四個"\\",完美匹配。

import re   
re_str_patt = "\\\\" 
reObj = re.compile(re_str_patt)   
str_test = "abc\\cd\\hh" 
print reObj.findall(str_test) 
import re
re_str_patt = "\\\\"
reObj = re.compile(re_str_patt)
str_test = "abc\\cd\\hh"
print reObj.findall(str_test)
      輸出:['\\', '\\']
  這里要這么理解,**首先第一重轉換是字符串自身的轉義,那么"\\\\",實際上就是表示兩個反斜杠(兩個字符),然后傳入正則表達式解析器,因為反斜杠依然是轉義字符,那么進行第二重轉換,兩個反斜杠就代表一個反斜杠,所以就能和一個反斜杠進行匹配了**,那么匹配連續的兩個反斜杠,寫正則表達式時就要寫8次"\"了,相當壯觀,要匹配/d+(這個在正則表達式里面表示連續1一個以上的數字字符)這個字符串怎么寫呢?
view plaincopy to clipboardprint?
import re   
re_str_patt = "\\\\d\\+" 
print re_str_patt   
reObj = re.compile(re_str_patt)   
print reObj.findall("\\d+") 
import re
re_str_patt = "\\\\d\\+"
print re_str_patt
reObj = re.compile(re_str_patt)
print reObj.findall("\\d+")
  寫成re_str_patt = "\\\\d\+"也行,因為\+對於字符串來說,沒有轉義意義,所以就當成一個反斜杠了。
 在python中寫正則表達式時用得最多的是raw字符串,**原生字符串,什么意思?就是只有一重轉換了,沒有字符串轉換了,只在正則表達式內部進行轉換了**,這樣匹配一個反斜杠的正則表達式可以這樣寫,re_str_patt =r"\\",有人會想,以后寫windows的文件路徑什么的方便了,呵呵直接 path = r"c:\myforder\xx"搞定,是的,這句沒有問題,但是如果你寫成 path =r"c:\myforder\xx\",直接報錯了,為什么?因為反斜杠雖然不作為轉義字符了,但是還是對它后面的引號(包括單引號)有影響,使這個引號不被視為字符串的終止,以為它后面還有字符,但是實際沒有,因此會報錯。其實可以反過來想raw字符串里面要表示引號怎么辦呢?,可以發現 path= r"\\123\"xxx" 是可以的,那用raw字符串豈不是有局限性?不過raw在設計之初就是用來支持正則表達式的,而在正則里面反斜杠是轉義字符,所以不可能出現在字符串的末尾的,所以建議不要圖方便在其他的地方使用raw。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM