Given a text file file.txt
that contains list of phone numbers (one per line), write a one liner bash script to print all valid phone numbers.
You may assume that a valid phone number must appear in one of the following two formats: (xxx) xxx-xxxx or xxx-xxx-xxxx. (x means a digit)
You may also assume each line in the text file must not contain leading or trailing white spaces.
For example, assume that file.txt
has the following content:
987-123-4567 123 456 7890 (123) 456-7890
Your script should output the following valid phone numbers:
987-123-4567 (123) 456-7890
這道題讓我們驗證數字串是否為正確的電話號碼的格式,而且規定了正確的格式只有兩種(xxx) xxx-xxxx or xxx-xxx-xxxx,那么我們可以看出來區別就是在前幾個字符,而后八個字符都相同。這題有多種解法,我們首先來看使用awk命令的解法,關於awk的介紹可以參見這個帖子。這道題是難點是如何寫匹配的正則表達式,關於Bash腳本的正則表達式講解請參見這個貼子。那么首先來看‘/.../'表示中間的是要匹配的正則表達式,然后脫字符^匹配一行的開頭,美元符$在正則表達式中匹配行尾,然后再看中間的部分,[0-9]{3}表示匹配三個數字,圓括號括起一組正則表達式. 它和"|"操作符或在用expr進行子字符串提取(substring extraction)一起使用很有用。那么([0-9]{3}-|\([0-9]{3}\) )就可以理解了,它匹配了xxx-和(xxx) 這兩種形式的字符串,然后后面的就好理解了,匹配xxx-xxxx這樣的字符串,參見代碼如下:
解法一:
awk '/^([0-9]{3}-|\([0-9]{3}\) )[0-9]{3}-[0-9]{4}$/' file.txt
下面來看使用sed命令的解法,關於sed的講解可以參見這個帖子。那么我們先來看后面的兩個參數,-n表示關閉默認輸出,默認將自動打印所有行,這樣就不會打印出不符合要求的數字串了。-r表示支持擴展正則+ ? () {} |。后面的正則表達式和上面都相同,就是后面多了一個p,在用sed時,p和-n合用,表示打印某一行,這樣才能把符合要求的行打印出來:
解法二:
sed -n -r '/^([0-9]{3}-|\([0-9]{3}\) )[0-9]{3}-[0-9]{4}$/p' file.txt
再來看使用grep命令的做法,關於grep的講解可以參見這個帖子。我沒有查到那個-P參數的用法,有沒有大神來點撥一下,后面的正則表達式思路根上面的相同,只不過用d{3}來表示[0-9]{3},道理都一樣,參見代碼如下:
解法三:
1 grep -P '^(\d{3}-|\(\d{3}\) )\d{3}-\d{4}$' file.txt
參考資料:
https://leetcode.com/discuss/29282/this-is-my-simple-solution
https://leetcode.com/discuss/29476/three-different-solutions-using-grep-sed-and-awk