淺談 js 字符串 trim 方法之正則篇


關於 trim 其實沒啥好說的,無非就是去除首位空格,對於現代瀏覽器來說只是簡單的正則 /^\s+|\s+$/ 就可以搞定了。
而且支持中文空格   等等。
什么 \s 支持 中文空格?
是的。

打開 RegExp#character-classes 往下拉一點,找到 \s 這個解釋。

原文:
Matches a single white space character, including space, tab, form feed, line feed and other Unicode spaces. Equivalent to [ \f\n\r\t\v\u00a0\u1680\u180e\u2000\u2001\u2002\u2003\u2004\u2005\u2006\u2007\u2008\u2009\u200a\u2028\u2029\u202f\u205f\u3000].

谷歌譯文:
匹配單個空白字符,包括空格,制表符,換頁,換行等Unicode的空格。
相當於 [ \f\n\r\t\v\u00a0\u1680\u180e\u2000\u2001\u2002\u2003\u2004\u2005\u2006\u2007\u2008\u2009\u200a\u2028\u2029\u202f\u205f\u3000]

其中 \u00a0 是   \u3000 是 中文空格,其他是什么,我也不知道,有興趣的可以自己去翻 unicode 表。

看到這,已經顛覆了我們傳統正則的規范了,以前,我們只知道 \s 等價於 [ \f\n\r\t\v],但卻不知道現在的js里卻等價於所有空白字符。
話雖如此,但是低版本卻一直是 [ \f\n\r\t\v],甚至連 trim 都木有,所以我們要兼容低版本的話,不能簡單的用 /^\s+|\s+$/ 處理了,要加上中文空格 和  
所以要 /^[\s\u3000\u00A0]+|[\s\u3000\u00A0]+$/ 才行,這樣常用的就有了,至於那些 \u2000 之類的,我也不知道是什么,可以按需添加進去。
常用的無非就中文空格和實體空格了。

我們看下 jQuery 是怎么處理這個的。

// 1.4.1
rtrim = /^(\s|\u00A0)+|(\s|\u00A0)+$/g,

// 1.5.1, 1.6.1, 1.7.1
trimLeft = /^[\s\xA0]+/;
trimRight = /[\s\xA0]+$/;

// 1.8.1, 1.9.1, 1.10.1, 1.11.1
rtrim = /^[\s\uFEFF\xA0]+|[\s\uFEFF\xA0]+$/g,

好吧,1.4-1.7 都一樣,值去除普通空格和實體空格。
1.8-1.11 加了一個 \uFEFF ,這個是什么東西呢?
jQuery 的注釋寫到 Make sure we trim BOM and NBSP (here's looking at you, Safari 5.0 and IE)
譯為: 確保去除 BOM 和   (請看你的 Safari 5.0 and IE)
什么 BOM ?為什么會出現 BOM ?
這東西一般人是打不出來的,為什么要去除這個呢?
PS:這里的BOM是 字節順序標記(byte-order mark),不清楚的,請翻閱這里 字節順序標記

我也不知道,最近翻不了牆,所以懶得找了。
但是他不去除中文空格這有點說不過去了,難道他們不會中文,就無視中文空格么?
所以我們應該優化下這個正則 /^[\s\u3000\uFEFF\xA0]+|[\s\u3000\uFEFF\xA0]+$/g 這樣才對嘛。

來看下原生 trim 和我們正則去除結果如何吧:

var rtrim = /^[\s\u3000\uFEFF\xA0]+|[\s\u3000\uFEFF\xA0]+$/g;
console.log( "普通空格測試:" );
console.log( "'" + " 普通空格 ".replace(rtrim, "") + "'" );
console.log( "'" + " 普通空格 ".trim() + "'" );

console.log( "實體空格測試:" );
console.log( "'" + " \u00a0 實體空格 \u00a0 ".replace(rtrim, "") + "'" );
console.log( "'" + " \u00a0 實體空格 \u00a0 ".trim() + "'" );

console.log( "中文空格測試:" );
console.log( "'" + "   中文空格   \u3000".replace(rtrim, "") + "'" );
console.log( "'" + "   中文空格   \u3000".trim() + "'" );

結果很明顯,都去除干凈了,說明 trim 也是支持中文空格的。
好了今天就分享這么個小知識點,明天見。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM