中文自然語言處理中去掉英文字符、數字和特殊字符的便捷用法


   做自然語言處理的同學,經常會對中文文本進行處理,對於一些特殊字符要去掉,現在把代碼收集一下,用的時候也方便

1 import re
2 
3 s = 'dneog1893^&&341den'
4 r1 = "[a-zA-Z0-9\s+\.\!\/_,$%^*(+\"\']+|[+——!,。?、:;;《》“”~@#¥%……&*()]+"
5 data = re.sub(r1, '', s)

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM