pandas和SQL數據分析實戰
https://study.163.com/course/courseMain.htm?courseId=1006383008&share=2&shareId=400000000398149
舉例
hive中 regexp_replace的用法,替換特殊字符問題
數據倉庫中有的字段不合格,有特殊字符,比如換行符。
poi_name \n19013 \n12013
怎么把換行符替換掉呢?
regexp_replace(string INITIAL_STRING, string PATTERN, string REPLACEMENT)
Returns the string resulting from replacing all substrings in INITIAL_STRING that match the java regular expression syntax defined in PATTERN with instances of REPLACEMENT. For example, regexp_replace("foobar", "oo|ar", "") returns 'fb.' Note that some care is necessary in using predefined character classes: using '\s' as the second argument will match the letter s; '\s' is necessary to match whitespace, etc.
官網說用兩個反斜杠代替一個,即一個反斜杠用來轉義。
實踐了一下,不行,得4個
select regexp_replace(poi_name,'\\\\n','') poi_name 19013 12013
轉自
https://blog.csdn.net/weixin_43767002/article/details/85605220
https://docs.oracle.com/cd/B19306_01/server.102/b14200/functions130.htm
regexp_replace函數是replace函數的擴展函數,用於通過正則表達式來進行匹配替換,默認情況下,每次匹配到的正則,都替換為replace_string,返回的字符串與source_char字符集相同。如果source_char為非LOB類型,則返回varchar2數據類型,如果為LOB類型,則返回CLOB類型,該函數符合POSIX正則和Unicode正則。
source_char是一個用作搜索的值,它通常是一種字符列,可以以下是任何數據類型CHAR、VARCHAR2、NCHAR、NVARCHAR2、CLOB、NCLOB
pattern是正則表達式,可以是以下任意數據類型CHAR、VARCHAR2、NCHAR、NVARCHAR2。最多可包含512個字節。如果pattern數據類型與source_char異同,則Oracle將轉換pattern的數據類型與source_char的一致。
replace_string可以是以下任意數據類型CHAR、VARCHAR2、NCHAR、NVARCHAR2、CLOB、NCLOB。如果replace_string是CLOB或NCLOB,則Oracle截斷replace_string為32K。replace_string可含有多達500個反向引用作為子表達式,其形式為\n,n為數字1~9。如果n在replace_string中為反斜線字符,則需使用轉移字符在其前面(\)
position是一個正整數,表示在source_char中Oracle應該開始搜索的字符。默認值為1,表示Oracle以第一個字符開始搜索。
occurrence是一個非負整數,表示替換動作的發生,如果為0,則Oracle將替換所有匹配項,如果為正整數n,則Oracle將替換第n個匹配項。
match_parameter是一個文本文件,用於更改匹配行為,僅影響匹配過程,並不影響replace_string。可以指定以下一個或多個值:
‘i’指定不區分大小寫的匹配
‘c’區分大小寫的匹配
‘n’允許‘.’(句點,配置任意字符)匹配換行符,如果省略此此參數,則句點與換行符不匹配
‘m’將源字符串視為多行。Oracle將源字符串中的^或$視為行首或行尾,如果省略此參數,Oracle將源字符串視為單行
‘x’忽略空格字符。默認情況下,空白字符與自身匹配。
如果指定多個矛盾值,Oracle將使用最后一個值,例如指定’ic’,則Oracle使用區分大小寫匹配,如果指定的不是上述字符,則返回錯誤
如果省略match_parameter,則:
1.默認的區分大小寫由NLS_SORT參數的值決定
2.句點‘.’與換行符不匹配
3.源字符串視為單行
以上中文內容為本人自行翻譯,僅供參考
實驗:
以下開始通過實驗驗證各參數功能的使用
簡單使用:
實驗 1:
SQL> select regexp_replace('0123456789','01234','0abc') from dual;
實驗 4:
SQL> select regexp_replace('+86 13811112222','(\+[0-9]{2})( )([0-9]{3})([0-9]{4})([0-9]{4})','(\1)\3-\4-\5') as new_str from dual;
附:正則表達式(POSIX標准擴展正則ERE)
符號 釋義
\ 代表它自己、引用下一個字符、引入一個操作符、什么也不做
* 匹配零或多個
+ 匹配一個或多個
? 匹配零個或一個
| 或運算,其左右操作數均可以為一個子表達式
^ 默認情況下匹配字符串的結尾。在多行模式下,它匹配源字符串中任意位置的行尾
$ 默認情況下匹配字符串的開頭。在多行模式下,它匹配源字符串中任意位置的行頭
. 匹配字符集中支持的任意字符,NULL除外
[ ] 用於指定匹配列表的括號表達式
( ) 對表達式進行分組,將其視為單個子表達式
{m} 恰好匹配m次
{m,} 匹配至少m次
{m,n} 匹配至少m次,但不超過n次
\n 反向引用表達式(n為1~9)匹配在\n之前的圓括號內包含的第n個子表達式
[. .] 指定排序規則,可以是多字符元素(例如,西班牙語中的[.ch.])
[: :] 指定字符類(例如,[:alpha:]),它匹配字符類中的任何字符
[= =] 指定等價類。(例如,[=a=]匹配索引具有基本字母a的字符)
https://docs.oracle.com/cd/B19306_01/server.102/b14200/ap_posix001.htm#BABJDBHB
以上資料來源於Oracle官網,由本人自行理解翻譯,如若有誤請指正
[: :]字符類:
[:xxxx:] 含義 范圍
[:space:] 包括換行符、空格、tab在內的空白字符 tab、空格
[:blank:] 空格和tab tab、空格
[:alpha:] 字母 a-z、A-Z
[:alnum:] 字母和數字 a-z、A-Z、0-9
[:digit:] 十進制數 0-9
[:xdigit:] 十六進制數 0-9、a-f、A-F
[:lower:] 小寫字母 a-z
[:upper:] 大寫字母 A-Z
[:cntrl:] 控制字符 ctrl、backspace等
[:punct:] 標點符號 ,.?’
python機器學習-sklearn挖掘乳腺癌細胞( 博主親自錄制)
網易雲觀看地址
掃二維碼,關注博主主頁,學習更多Python知識