中文自然語言處理中去掉英文字符、數字和特殊字符的便捷用法 - 碼上歡樂

相關內容簡體繁體

中文自然語言處理中去掉英文字符、數字和特殊字符的便捷用法

本文轉載自查看原文 2018-10-11 11:16 707

做自然語言處理的同學，經常會對中文文本進行處理，對於一些特殊字符要去掉，現在把代碼收集一下，用的時候也方便

1 import re
2 
3 s = 'dneog1893^&&341den'
4 r1 = "[a-zA-Z0-9\s+\.\!\/_,$%^*(+\"\']+|[+——！，。？、：；;《》“”~@#￥%……&*（）]+"
5 data = re.sub(r1, '', s)

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Python統計字符串中的中英文字符、數字空格，特殊字符 Python統計字符串中的中英文字符、數字空格，特殊字符有一個字符串，其中包含中文字符、英文字符、數字字符、空格、特殊字符，請統計和打印出各個字符的個數。學習NLP:《精通Python自然語言處理》中文PDF+英文PDF+代碼去掉[]中的英文字符《TensorFlow與自然語言處理應用》PDF代碼+雅蘭《Python自然語言處理》PDF中英文代碼+《基於深度學習的自然語言處理》中文PDF筆記 python 正則過濾中文、英文、數字、特殊字符demo 自然語言處理-中文語料預處理自然語言處理之中文分詞算法 [自然語言處理] 中文分詞技術

粵ICP備18138465號 © 2018-2026 CODEPRJ.COM