中文自然语言处理中去掉英文字符、数字和特殊字符的便捷用法


   做自然语言处理的同学,经常会对中文文本进行处理,对于一些特殊字符要去掉,现在把代码收集一下,用的时候也方便

1 import re
2 
3 s = 'dneog1893^&&341den'
4 r1 = "[a-zA-Z0-9\s+\.\!\/_,$%^*(+\"\']+|[+——!,。?、:;;《》“”~@#¥%……&*()]+"
5 data = re.sub(r1, '', s)

 


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM