数据挖掘-语料库的构建

本文转载自查看原文 2018-10-01 20:44 1119 Python数据挖掘

语料库：是我们要分析的所有文档的集合

使用搜狗实验室提供的语料库，里面有一个classlist，里面内容是文件的编号及分类名称

1、导入模块

import os import os.path filePaths=[] #建立一个空的列表来存放语料库的文件名称，数组变量 for root,dirs,files in os.walk( "D:\\Python\\Python数据挖掘\\2.1\\SogouC.mini\\Sample"): for name in files: filePaths.append(os.path.join(root,name))

使用os.walk传入这个目录作为参数，遍历该文件夹下的全部文件，该方法返回一个Truple的数组，第一个root是文件所在目录，第二个是root文件下的子目录命名为dirs，第三个root文件下的所有文件命名为files

拼接文件路径（可解决不同系统下的的文件拼接）

os.path.join(root,name)

2、把第一步的文件路径下的内容读取到内存中

import codecs filePaths=[] fileContents=[] filenames=[] for root,dirs,files in os.walk( "D:\\Python\\Python数据挖掘\\2.1\\SogouC.mini\\Sample"): for name in files: filePaths.append(os.path.join(root,name)) filePath=os.path.join(root,name) f=codecs.open(filePath,"r",encoding="utf-8") fileContent=f.read() #读取内容后关闭 fileContents.append(fileContent)

使用codecs.open(filePath,method,encoding)来打开文件，然后用文件的read()方法

3、把读取到的内容变成一个数据框

import pandas corpos=pandas.DataFrame({ "filePath":filePaths, "fileContent":fileContents, "class":filenames})

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 nlp数据预处理：词库、词典与语料库【数据预处理】TIMIT语料库WAV文件转换【转】国内可用免费语料库 NLP&Python笔记——语料库解析搜狗新闻语料库自然语言处理——NLTK中文语料库语料库【NLP】大数据之行，始于足下：谈谈语料库知多少 CCL语料库检索系统（网络版） spark处理大规模语料库统计词汇自然语言处理----语料库