首先可以明確的是(已驗證),hive中的正則表達式需要兩個斜杠:比如\\d才可以匹配數字。
\\w:英文字母、數字、下划線
\\u4E00-\\u9FFF:中文漢字
{m,n}:匹配m~n次
{m,}至少匹配m次
+:匹配一次或多次,和{1,}等價
*:匹配0次或多次
?:非貪婪模式;可選匹配
(?:):非獲取匹配
(?<=):非獲取匹配,以……開頭
(?<!):非獲取匹配,不以……開頭
(?=):非獲取匹配,以……結尾
(?!):非獲取匹配,不以……結尾
\\:轉義,已經在hive_cli嘗試過,regexp_extract()、regexp_replace()都只能使用兩個斜杠轉義,一個斜杠都是轉義失敗的。