HiveSQL正則表達式的應用[轉]

本文轉載自查看原文 2019-01-15 19:33 1521 hive

最近工作中數據處理方面用到很多不是特別容易處理的數據，用正則表達式的話會讓語句顯得特別精簡，也可以用各種字符串截取函數嵌套處理（必須要有一定規律），總結一下經常用到的幾個。

1.正則的通配符簡介
1）正則表達式的符號及意義
^ 表示開頭

$ 表示結尾

. 表示任意字符

* 表示任意多個

/
做為轉意，即通常在"/"后面的字符不按原來意義解釋，如/b/匹配字符"b"，當b前面加了反斜桿后//b/，轉意為匹配一個單詞的邊界。
-或-
對正則表達式功能字符的還原，如"*"匹配它前面元字符0次或多次，/a*/將匹配a,aa,aaa，加了"/"后，/a/*/將只匹配"a*"。

^ 匹配一個輸入或一行的開頭，/^a/匹配"an A"，而不匹配"An a"
$ 匹配一個輸入或一行的結尾，/a$/匹配"An a"，而不匹配"an A"
* 匹配前面元字符0次或多次，/ba*/將匹配b,ba,baa,baaa
+ 匹配前面元字符1次或多次，/ba*/將匹配ba,baa,baaa
? 匹配前面元字符0次或1次，/ba*/將匹配b,ba
(x) 匹配x保存x在名為$1...$9的變量中
x|y 匹配x或y
{n} 精確匹配n次
{n,} 匹配n次以上
{n,m} 匹配n-m次
[xyz] 字符集(character set)，匹配這個集合中的任一一個字符(或元字符)
[^xyz] 不匹配這個集合中的任何一個字符
[/b] 匹配一個退格符
/b 匹配一個單詞的邊界
/B 匹配一個單詞的非邊界
/cX 這兒，X是一個控制符，//cM/匹配Ctrl-M
/d 匹配一個字數字符，//d/ = /[0-9]/
/D 匹配一個非字數字符，//D/ = /[^0-9]/
/n 匹配一個換行符
/r 匹配一個回車符
/s 匹配一個空白字符，包括/n,/r,/f,/t,/v等
/S 匹配一個非空白字符，等於/[^/n/f/r/t/v]/
/t 匹配一個制表符
/v 匹配一個重直制表符
/w 匹配一個可以組成單詞的字符(alphanumeric，這是我的意譯，含數字)，包括下划線，如[/w]匹配"$5.98"中的5，等於[a-zA-Z0-9]
/W 匹配一個不可以組成單詞的字符，如[/W]匹配"$5.98"中的$，等於[^a-zA-Z0-9]。
'( )' 標記一個子表達式的開始和結束位置。
'[]' 標記一個中括號表達式。
/num 匹配 num，其中 num 是一個正整數。對所獲取的匹配的引用。

2）字符簇：
[[:alpha:]] 任何字母。
[[:digit:]] 任何數字。
[[:alnum:]] 任何字母和數字。
[[:space:]] 任何白字符。
[[:upper:]] 任何大寫字母。
[[:lower:]] 任何小寫字母。
[[:punct:]] 任何標點符號。
[[:xdigit:]] 任何16進制的數字，相當於[0-9a-fA-F]

[[:<:]],[[:>:]] 標記表示word邊界。它們分別與word的開始和結束匹配。word是一系列字字符，其前面和后面均沒有字字符。字字符是alnum類中的字母數字字符或下划線(_)

3）各種操作符的運算優先級：
/ 轉義符
(), (?:), (?=), [] 圓括號和方括號
*, +, ?, {n}, {n,}, {n,m} 限定符
^, $, anymetacharacter 位置和順序

2.正則函數介紹
1） regexp_extract
regexp_extract(str , regexp , idx)

參數解釋:

其中：

str是被解析的字符串或字段名

regexp 是正則表達式

idx是返回結果取表達式的哪一部分默認值為1。

0表示把整個正則表達式對應的結果全部返回

1表示返回正則表達式中第一個() 對應的結果以此類推

For example :

select regexp_extract('hitdecisiondlist','(i)(.*?)(e)', idx ) ; ---- （.*?）代表 0到多個任意字符，？代表非貪婪模式，意思是：取盡量少的任意字符

idx=0 結果：itde ； idx=1 結果：i ； idx=2 結果：td ； idx=3 結果：e

由此可以看出從左開始括號內部的值是根據 idx的下標來確定的（起始位為1）

select regexp_extract('insert overwrite table tmp_table_test select * from table' , '(table)[[:space:]](.*)[[:space:]](select)',2) from dual

目的是取出要插入數據的目標表的表名（tmp_table_test），位置為2時取得是(.*)匹配的字符串，位置為1時取得是（table）匹配的字符串 table，位置為3時取得是（select）匹配的字符串 select

select
REGEXP_EXTRACT('9.00w','([0-9]*)[[:punct:]]([0-9]*)[[:alpha:]]',1),
REGEXP_EXTRACT('9.00w','([0-9]*)[[:punct:]]([0-9]*)[[:alpha:]]',2)
from dual

大家可以試試這個語句的作用，驗證一下上面說的是否正確，^_^

2） regexp_substr
regexp_substr(string, regex,postion,match_parameter)

string : 被解析的字符串或字段名

regex: 正則表達式

postion：其實位置

match_parameter：出現的次數

For example：

select regexp_substr('別克-君威2010款 2.4L A.MT 旗艦版2.3T','[[:alnum:]][[:punct:]][[:alnum:]][LT]',1,1) from dual

分析：上面正則的意思是 [[:alnum:]][[:punct:]][[:alnum:]][LT] ===> 任何字母(不區分大小寫)和數字+ 任何標點符號+任何字母和數字 +（L或者T）的組合

后面 1,1 的意思是從匹配的字符串起，符合正則且第一次出現的字符串

結果： 2.4L

換個方式提取 A.MT SQL語句如下

select regexp_substr('別克-君威2010款 2.4L A.MT 旗艦版2.3T','[[:alnum:]][[:punct:]][[:alnum:]][LT]',1,2) from dual

如果提取2.3T ，把最后那個數字改成3即可，就不寫sql了。累！

select
REGEXP_SUBSTR('9.00w','([0-9]*)[[:punct:]]([0-9]*)',1,1)
from dual

大家可以驗證一下這個語句！

3）regexp
regexp的用法比較簡單，就是個判斷語句跟like、=、！=、not in 、in 的感覺一樣

大家日常處理日期數據時，會出現yyyy-mm-dd這種不符合正常邏輯的情況，例如：1870-12-59/2018-02-29（瑞年和平年的問題）等

廢話不多說，直接上例子

select 1 from dual
where '2017-09-31' REGEXP '(([0-9]{3}[1-9]|[0-9]{2}[1-9][0-9]{1}|[0-9]{1}[1-9][0-9]{2}|[1-9][0-9]{3})-(((0[13578]|1[02])-(0[1-9]|[12][0-9]|3[01]))|((0[469]|11)-(0[1-9]|[12][0-9]|30))|(02-(0[1-9]|[1][0-9]|2[0-8]))))|((([0-9]{2})(0[48]|[2468][048]|[13579][26])|((0[48]|[2468][048]|[3579][26])00))-02-29)'

來把下面的表達式解剖了來看

'(([0-9]{3}[1-9]| ----第一種組合前3位滿足0~9，后1位滿足1~9 （YYYY）

[0-9]{2}[1-9][0-9]{1}| ----第二種組合前2位滿足0~9，后1位滿足1~9，最后1位滿足0~9 （YYYY）

[0-9]{1}[1-9][0-9]{2}| ----第三種組合第1位滿足0~9，第2位滿足1~9，最后2位滿足0~9 （YYYY）

[1-9][0-9]{3}) ----第四種組合第1位滿足1~9，后3位滿足0~9 （YYYY）

-(((0[13578]| ----第一種組合第1位是0，第2位 13578 （中括號 [ ]代表里面的元素是或的概念）（MM） 01 03 05 07 08

1[02]) ----第二種組合第1位是1，第2位 02 （MM） 10 12

-(0[1-9]| ----第一種組合第1位是0，第2位 1~9 （DD） 01 ~ 09

[12][0-9]| ----第一種組合第1位是1或2，第2位 0~9 （DD） 10 ~29

3[01]))| ----第一種組合第1位是3，第2位 0或1 （DD） 30~31

上面考慮的是1 3 5 7 8 10 臘 31天永不差的原則，這個不會的話重讀一邊小學！

---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

((0[469]| ----第一種組合第1位 0 ，第2位 469 （中括號 [ ]代表里面的元素是或的概念）（MM） 04 06 09

11) ----第二種組合是11 （MM） 11

-(0[1-9]| ----第一種組合第1位0，第2位 1~9 （DD） 01~09

[12][0-9]| ----第二種組合第1位1~2，第2位 0~9 （DD） 10~29

30))| ----第三種組合30 （DD） 30

上面考慮的是 4 6 9 11 月都是30天

下面考慮的是瑞年、平年2月多少天的問題。

(02-(0[1-9]|[1][0-9]|2[0-8]))))|

((([0-9]{2})(0[48]|

[2468][048]|

[13579][26])|

((0[48]|[2468][048]|[3579][26])00))-02-29)'

正則表達式的函數太多了，先總結三個，如果還想看請點贊，湊齊20贊召喚我繼續更新，包括上面缺了一塊兒的日期問題，我補充完整
---------------------
作者：馮劍
來源：CSDN
原文：https://blog.csdn.net/u010215845/article/details/83275598
版權聲明：本文為博主原創文章，轉載請附上博文鏈接！

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 深入正則表達式應用擴展正則表達式及應用 Java正則表達式的應用 vba 正則表達式應用 MATLAB 正則表達式（一）(轉) 正則表達式轉NFA java正則表達式應用正則表達式學習（轉） Postgresql 正則表達式（轉）【轉】正則表達式的分組