去除文本中的HTML標簽、中英文標點符號、數字及英文單詞

本文轉載自查看原文 2017-04-21 22:59 1859 Python

在進行中文分詞統計前，往往要先把爬取下來的文本中包含的一些標簽、標點符號、英文字母等過濾掉，這一過程叫做數據清洗。

#coding=utf-8
import re 
import codecs 
def strs_filter(file):
    with codecs.open(file,"r","utf8") as f,codecs.open("result.txt","a+","utf8") as c:
        lines=f.readlines()
        for line in lines:
            # line=line.decode('utf8')
            re_html=re.compile('<[^>]+>'.decode('utf8'))#從'<'開始匹配，不是'>'的字符都跳過，直到'>'
            re_punc=re.compile('[\s+\.\!\/_,$%^*(+\"\']+|[+——！，。？、~@#￥%……&*“”《》：（）]+'.decode('utf8'))#去除標點符號
            re_digits_letter=re.compile('\w+'.decode('utf8'))#去除數字及字母
            line=re_html.sub('',line)
            line=re_punc.sub("",line)
            line=re_digits_letter.sub("",line)
            c.write(line)
strs_filter("strip.txt")

通過上面的代碼可以去除與中文分詞統計無關的內容，效果如下：

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 php正則，刪除字符串中的中英文標點符號 css中英文單詞換行的問題用javaIO流讀取文本中英文字母和英文單詞的出現次數及頻率 JavaScript正則表達式匹配中英文以及常用標點符號白名單寫法怎樣用正則表達式去除文本中的標點符號怎樣用正則表達式去除文本中的標點符號 java 字符串截取類區分中文、英文、數字、標點符號 Java 如何隨機產生8位包含英文數字標點符號 Python關於文本中標點符號及其他的替換將中文標點符號替換成英文標點符號