Hive 正則匹配函數

本文轉載自查看原文 2018-07-17 15:15 19572 Hive & SQL

正則匹配字符解釋：

^ 表示開頭
$ 表示結尾
. 表示任意字符
* 表示任意多個

regexp_extract函數

語法: regexp_extract(string subject, string pattern, int index)

返回值: string

說明：將字符串subject按照pattern正則表達式的規則拆分，返回index指定的字符。

第一參數：要處理的字段

第二參數: 需要匹配的正則表達式

第三個參數:

0是顯示與之匹配的整個字符串
1 是顯示第一個括號里面的
2 是顯示第二個括號里面的字段...

注意，在有些情況下要使用轉義字符（雙斜杠了‘\\’）。

1、關於正則表達式的符號及意義

正則表達式由標准的元字符（metacharacters）所構成：

/	做為轉意，即通常在"/"后面的字符不按原來意義解釋，如/b/匹配字符"b"，當b前面加了反斜桿后//b/，轉意為匹配一個單詞的邊界。 -或- 對正則表達式功能字符的還原，如""匹配它前面元字符0次或多次，/a/將匹配a,aa,aaa，加了"/"后，/a//將只匹配"a"。
^	匹配一個輸入或一行的開頭，/^a/匹配"an A"，而不匹配"An a"
$	匹配一個輸入或一行的結尾，/a$/匹配"An a"，而不匹配"an A"
*	匹配前面元字符0次或多次，/ba*/將匹配b,ba,baa,baaa
+	匹配前面元字符1次或多次，/ba*/將匹配ba,baa,baaa
?	匹配前面元字符0次或1次，/ba*/將匹配b,ba
(x)	匹配x保存x在名為$1...$9的變量中
x\|y	匹配x或y
{n}	精確匹配n次
{n,}	匹配n次以上
{n,m}	匹配n-m次
[xyz]	字符集(character set)，匹配這個集合中的任一一個字符(或元字符)
[^xyz]	不匹配這個集合中的任何一個字符
[/b]	匹配一個退格符
/b	匹配一個單詞的邊界
/B	匹配一個單詞的非邊界
/cX	這兒，X是一個控制符，//cM/匹配Ctrl-M
/d	匹配一個字數字符，//d/ = /[0-9]/
/D	匹配一個非字數字符，//D/ = /[^0-9]/
/n	匹配一個換行符
/r	匹配一個回車符
/s	匹配一個空白字符，包括/n,/r,/f,/t,/v等
/S	匹配一個非空白字符，等於/[^/n/f/r/t/v]/
/t	匹配一個制表符
/v	匹配一個重直制表符
/w	匹配一個可以組成單詞的字符(alphanumeric，這是我的意譯，含數字)，包括下划線，如[/w]匹配"$5.98"中的5，等於[a-zA-Z0-9]
/W	匹配一個不可以組成單詞的字符，如[/W]匹配"$5.98"中的$，等於[^a-zA-Z0-9]。

'( )' 標記一個子表達式的開始和結束位置。
'[]' 標記一個中括號表達式。
/num 匹配 num，其中 num 是一個正整數。對所獲取的匹配的引用。
字符簇：
[[:alpha:]] 任何字母。
[[:digit:]] 任何數字。
[[:alnum:]] 任何字母和數字。
[[:space:]] 任何白字符。
[[:upper:]] 任何大寫字母。
[[:lower:]] 任何小寫字母。
[[:punct:]] 任何標點符號。
[[:xdigit:]] 任何16進制的數字，相當於[0-9a-fA-F]

[[:<:]],[[:>:]] 標記表示word邊界。它們分別與word的開始和結束匹配。word是一系列字字符，其前面和后面均沒有字字符。字字符是alnum類中的字母數字字符或下划線(_)

各種操作符的運算優先級：
/ 轉義符
(), (?:), (?=), [] 圓括號和方括號
*, +, ?, {n}, {n,}, {n,m} 限定符
^, $, anymetacharacter 位置和順序

2、regexp_extract函數

regexp_extract(str, regexp[, idx]) - extracts a group that matches regexp

字符串正則表達式解析函數。

參數解釋:

其中：

str是被解析的字符串或字段名

regexp 是正則表達式

idx是返回結果取表達式的哪一部分默認值為1。

0表示把整個正則表達式對應的結果全部返回

1表示返回正則表達式中第一個() 對應的結果以此類推

注意點：

要注意的是idx的數字不能大於表達式中()的個數。

否則報錯：

實例：

如：

1） select regexp_extract('hitdecisiondlist','(i)(.*?)(e)',0) ;

得到的結果為:

itde

2） select regexp_extract('hitdecisiondlist','(i)(.*?)(e)',1) ;

得到的結果為:

3） select regexp_extract('hitdecisiondlist','(i)(.*?)(e)',2) ;

得到的結果為:

4） select regexp_extract('x=a3&x=18abc&x=2&y=3&x=4','x=([0-9]+)([a-z]+)',2) from default.dual;

得到的結果為:

abc

此外，當前的語句只有2個()表達式所以當idx>=3的時候就會報錯

FAILED: SemanticException [Error 10014]: Line 1:7 Wrong arguments '5': org.apache.Hadoop.hive.ql.metadata.HiveException: Unable to execute method public Java.lang.String org.apache.hadoop.hive.ql.udf.UDFRegExpExtract.evaluate(java.lang.String,java.lang.String,java.lang.Integer) on objectorg.apache.hadoop.hive.ql.udf.UDFRegExpExtract@2cf5e0f0 of class org.apache.hadoop.hive.ql.udf.UDFRegExpExtract with arguments {x=a3&x=18abc&x=2&y=3&x=4:java.lang.String, x=([0-9]+)[a-z]:java.lang.String, 2:java.lang.Integer} of size 3

轉自：https://blog.csdn.net/hqr20627/article/details/78038649

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 關於Hive正則匹配中文字符串的問題 hive中巧用正則表達式的貪婪匹配 Java正則多次匹配和多次組匹配 hive 函數 re正則匹配之finditer scala 之正則匹配 python正則匹配 tcl 正則匹配與替換 Golang 正則匹配 -- regexp re正則匹配