中国自然语言开源组织:http://www.nlpcn.org/ (一) 国家语委 1国家语委现代汉语语料库http://www.cncorpus.org/ 现代汉语通用平衡语料库现在重新开放网络查询了。重开后的在线检索速度更快,功能更强,同时提供检索结果下载。现代汉语语料库在线 ...
最近收到很多要语料的,我把关于这个的都放在百度云盘了。链接: https: pan.baidu.com s tZj MDiPfCT SYBvClQbew 提取码: krbd 大家有需要就从里面找吧 不零碎得回复大家了。 我的天,清明节三天假期,我竟然除了逛街闲游,只做了一件事儿,不过还是很开心,终于把待用的训练文本解析出来了。在这里,非常感谢参考文章的作者们,你们的经验给了我极大的帮助。 捂脸 . ...
2017-04-05 10:28 6 7394 推荐指数:
中国自然语言开源组织:http://www.nlpcn.org/ (一) 国家语委 1国家语委现代汉语语料库http://www.cncorpus.org/ 现代汉语通用平衡语料库现在重新开放网络查询了。重开后的在线检索速度更快,功能更强,同时提供检索结果下载。现代汉语语料库在线 ...
语料库:是我们要分析的所有文档的集合 使用搜狗实验室提供的语料库,里面有一个classlist,里面内容是文件的编号及分类名称 1、导入模块 使用os.walk传入这个目录作为参数,遍历该文件夹下的全部文件,该方法返回一个Truple的数组,第一个root是文件所在目录 ...
什么是语料库?文本语料库是一个大型结构化文本的集合。 NLTK包含了许多语料库: (1)古滕堡语料库 (2)网络和聊天文本 (3)布朗语料库 (4)路透社语料库 (5)就职演讲语料库 (6)标注文本语料库 词汇列表语料库 (1)词汇列表 ...
Python NLTK库中包含着大量的语料库,但是大部分都是英文,不过有一个Sinica(中央研究院)提供的繁体中文语料库,值得我们注意。 在使用这个语料库之前,我们首先要检查一下是否已经安装了这个语料库。 >>>import nltk >>> ...
在nlp的数据预处理中,我们通常需要根据原始数据集做出如题目所示的三种结构。但是新手(我自己)常常会感到混乱,因此特意整理一下 1.词库 词库是最先需要处理出的数据形式,即将原数据集按空格分词或者 ...
CCL语料库检索系统(网络版) 使用说明 高级查询 现代汉语 古代汉语 2009-07-20更新 CCL语料库规模:4.77亿字(1.06GB) 语料分布: 现代 [字数] 古代 [字数] 欢迎提供古代汉语语料 ...
最近迷上了spark,写一个专门处理语料库生成词库的项目拿来练练手, github地址:https://github.com/LiuRoy/spark_splitter。代码实现参考wordmaker项目,有兴趣的可以看一下,此项目用到了不少很tricky的技巧提升性能,单纯只想看懂源代码可以参考 ...
本文重点介绍预料库的一般操作。 1. 使用nltk加载自己的预料库 View Code 这里将本地'D:/00001/2002/Annual_txt'文件夹作为一个预料库,操作里面的文件。 2. 预料库的一般 ...