正則匹配字符解釋:
- ^ 表示開頭
- $ 表示結尾
- . 表示任意字符
- * 表示任意多個
regexp_extract函數
語法: regexp_extract(string subject, string pattern, int index)
返回值: string
說明: 將字符串subject按照pattern正則表達式的規則拆分,返回index指定的字符。
第一參數: 要處理的字段
第二參數: 需要匹配的正則表達式
第三個參數:
- 0是顯示與之匹配的整個字符串
- 1 是顯示第一個括號里面的
- 2 是顯示第二個括號里面的字段...
注意,在有些情況下要使用轉義字符(雙斜杠了‘\\’)。
1、關於正則表達式的符號及意義
正則表達式由標准的元字符(metacharacters)所構成:
/ | 做為轉意,即通常在"/"后面的字符不按原來意義解釋,如/b/匹配字符"b",當b前面加了反斜桿后//b/,轉意為匹配一個單詞的邊界。 |
^ | 匹配一個輸入或一行的開頭,/^a/匹配"an A",而不匹配"An a" |
$ | 匹配一個輸入或一行的結尾,/a$/匹配"An a",而不匹配"an A" |
* | 匹配前面元字符0次或多次,/ba*/將匹配b,ba,baa,baaa |
+ | 匹配前面元字符1次或多次,/ba*/將匹配ba,baa,baaa |
? | 匹配前面元字符0次或1次,/ba*/將匹配b,ba |
(x) | 匹配x保存x在名為$1...$9的變量中 |
x|y | 匹配x或y |
{n} | 精確匹配n次 |
{n,} | 匹配n次以上 |
{n,m} | 匹配n-m次 |
[xyz] | 字符集(character set),匹配這個集合中的任一一個字符(或元字符) |
[^xyz] | 不匹配這個集合中的任何一個字符 |
[/b] | 匹配一個退格符 |
/b | 匹配一個單詞的邊界 |
/B | 匹配一個單詞的非邊界 |
/cX | 這兒,X是一個控制符,//cM/匹配Ctrl-M |
/d | 匹配一個字數字符,//d/ = /[0-9]/ |
/D | 匹配一個非字數字符,//D/ = /[^0-9]/ |
/n | 匹配一個換行符 |
/r | 匹配一個回車符 |
/s | 匹配一個空白字符,包括/n,/r,/f,/t,/v等 |
/S | 匹配一個非空白字符,等於/[^/n/f/r/t/v]/ |
/t | 匹配一個制表符 |
/v | 匹配一個重直制表符 |
/w | 匹配一個可以組成單詞的字符(alphanumeric,這是我的意譯,含數字),包括下划線,如[/w]匹配"$5.98"中的5,等於[a-zA-Z0-9] |
/W | 匹配一個不可以組成單詞的字符,如[/W]匹配"$5.98"中的$,等於[^a-zA-Z0-9]。 |
'( )' 標記一個子表達式的開始和結束位置。
'[]' 標記一個中括號表達式。
/num 匹配 num,其中 num 是一個正整數。對所獲取的匹配的引用。
字符簇:
[[:alpha:]] 任何字母。
[[:digit:]] 任何數字。
[[:alnum:]] 任何字母和數字。
[[:space:]] 任何白字符。
[[:upper:]] 任何大寫字母。
[[:lower:]] 任何小寫字母。
[[:punct:]] 任何標點符號。
[[:xdigit:]] 任何16進制的數字,相當於[0-9a-fA-F]
[[:<:]],[[:>:]] 標記表示word邊界。它們分別與word的開始和結束匹配。word是一系列字字符,其前面和后面均沒有字字符。字字符是alnum類中的字母數字字符或下划線(_)
各種操作符的運算優先級:
/ 轉義符
(), (?:), (?=), [] 圓括號和方括號
*, +, ?, {n}, {n,}, {n,m} 限定符
^, $, anymetacharacter 位置和順序
2、regexp_extract函數
regexp_extract(str, regexp[, idx]) - extracts a group that matches regexp
字符串正則表達式解析函數。
參數解釋:
其中:
str是被解析的字符串或字段名
regexp 是正則表達式
idx是返回結果 取表達式的哪一部分 默認值為1。
0表示把整個正則表達式對應的結果全部返回
1表示返回正則表達式中第一個() 對應的結果 以此類推
注意點:
要注意的是idx的數字不能大於表達式中()的個數。
否則報錯:
實例:
如:
1) select regexp_extract('hitdecisiondlist','(i)(.*?)(e)',0) ;
得到的結果為:
itde
2) select regexp_extract('hitdecisiondlist','(i)(.*?)(e)',1) ;
得到的結果為:
i
3) select regexp_extract('hitdecisiondlist','(i)(.*?)(e)',2) ;
得到的結果為:
td
4) select regexp_extract('x=a3&x=18abc&x=2&y=3&x=4','x=([0-9]+)([a-z]+)',2) from default.dual;
得到的結果為:
abc
此外,當前的語句只有2個()表達式 所以當idx>=3的時候 就會報錯
FAILED: SemanticException [Error 10014]: Line 1:7 Wrong arguments '5': org.apache.Hadoop.hive.ql.metadata.HiveException: Unable to execute method public Java.lang.String org.apache.hadoop.hive.ql.udf.UDFRegExpExtract.evaluate(java.lang.String,java.lang.String,java.lang.Integer) on objectorg.apache.hadoop.hive.ql.udf.UDFRegExpExtract@2cf5e0f0 of class org.apache.hadoop.hive.ql.udf.UDFRegExpExtract with arguments {x=a3&x=18abc&x=2&y=3&x=4:java.lang.String, x=([0-9]+)[a-z]:java.lang.String, 2:java.lang.Integer} of size 3
轉自:https://blog.csdn.net/hqr20627/article/details/78038649