python 過濾文本中的標點符號(轉)


網上搜到的大都太復雜,最后找到一個用正則表達式實現的:

import re
s = "string. With. Punctuation?"
# 如果空白符也需要過濾,使用 r'[^\w]'
s = re.sub(r'[^\w\s]','',s)

支持中文和中文標點。

原理很簡單:在正則表達式中,\w 匹配字母或數字或下划線或漢字(具體與字符集有關),^\w 表示相反匹配。

轉自:http://baimoz.me/1656/


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM