去除文本中的HTML标签、中英文标点符号、数字及英文单词

本文转载自查看原文 2017-04-21 22:59 1859 Python

在进行中文分词统计前，往往要先把爬取下来的文本中包含的一些标签、标点符号、英文字母等过滤掉，这一过程叫做数据清洗。

#coding=utf-8
import re 
import codecs 
def strs_filter(file):
    with codecs.open(file,"r","utf8") as f,codecs.open("result.txt","a+","utf8") as c:
        lines=f.readlines()
        for line in lines:
            # line=line.decode('utf8')
            re_html=re.compile('<[^>]+>'.decode('utf8'))#从'<'开始匹配，不是'>'的字符都跳过，直到'>'
            re_punc=re.compile('[\s+\.\!\/_,$%^*(+\"\']+|[+——！，。？、~@#￥%……&*“”《》：（）]+'.decode('utf8'))#去除标点符号
            re_digits_letter=re.compile('\w+'.decode('utf8'))#去除数字及字母
            line=re_html.sub('',line)
            line=re_punc.sub("",line)
            line=re_digits_letter.sub("",line)
            c.write(line)
strs_filter("strip.txt")

通过上面的代码可以去除与中文分词统计无关的内容，效果如下：

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 php正则，删除字符串中的中英文标点符号 css中英文单词换行的问题用javaIO流读取文本中英文字母和英文单词的出现次数及频率 JavaScript正则表达式匹配中英文以及常用标点符号白名单写法怎样用正则表达式去除文本中的标点符号怎样用正则表达式去除文本中的标点符号 java 字符串截取类区分中文、英文、数字、标点符号 Java 如何随机产生8位包含英文数字标点符号 Python关于文本中标点符号及其他的替换将中文标点符号替换成英文标点符号