做自然語言處理的同學,經常會對中文文本進行處理,對於一些特殊字符要去掉,現在把代碼收集一下,用的時候也方便
1 import re 2 3 s = 'dneog1893^&&341den' 4 r1 = "[a-zA-Z0-9\s+\.\!\/_,$%^*(+\"\']+|[+——!,。?、:;;《》“”~@#¥%……&*()]+" 5 data = re.sub(r1, '', s)
做自然語言處理的同學,經常會對中文文本進行處理,對於一些特殊字符要去掉,現在把代碼收集一下,用的時候也方便
1 import re 2 3 s = 'dneog1893^&&341den' 4 r1 = "[a-zA-Z0-9\s+\.\!\/_,$%^*(+\"\']+|[+——!,。?、:;;《》“”~@#¥%……&*()]+" 5 data = re.sub(r1, '', s)
本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。