原文:NLTK学习笔记(三):NLTK的一些工具

主要总结一下简单的工具:条件频率分布 正则表达式 词干提取器和归并器。 条件分布频率 自然语言学习 很多地方都用到了条件分布频率,nltk提供了两种常用的接口:FreqDist 和 ConditionalFreqDist 。后面很多都会用到这两种方法,特别是第二个。因为第二个更符合定义,会智能的找到条件。 然后根据绘图的库,可以做出来很漂亮的图形。 简单的FreqDist 函数接收list类型的 ...

2017-06-10 12:56 0 3455 推荐指数:

查看详情

jieba、NLTK学习笔记

  中文分词 - jiebaimport re import jieba news_CN = ''' 央视315晚会曝光湖北省知名的神丹牌、莲田牌“土鸡蛋”实为普通鸡蛋冒充,同时在商标上玩 ...

Thu Aug 08 19:19:00 CST 2019 0 388
NLTK学习笔记(四):自然语言处理的一些算法研究

自然语言处理中算法设计有两大部分:分而治之 和 转化 思想。一个是将大问题简化为小问题,另一个是将问题抽象化,向向已知转化。前者的例子:归并排序;后者的例子:判断相邻元素是否相同(与排序)。 这次总结的自然语言中常用的一些基本算法,算是入个门了。 递归 使用递归速度 ...

Tue Jun 13 05:33:00 CST 2017 1 1261
分词用到的一些方法和工具--NLTK一些分词方法

这些对象均来自nltk.tokenize库 1. word_tokenize   导入nltk的tokenize库后,tokens = nltk.word_tokenize(sentence)语句进行分词操作,sentence为待处理的字符串。返回一个列表。   该方法要求被处理的字符串 ...

Tue Jul 24 08:20:00 CST 2018 0 3023
NLTK学习笔记(一):语言处理和Python

目录 目录 目录 nltk资料下载 文本和词汇 搜索文本 计数词汇(去重、定位) 词链表 自然语言简单数学统计 频率分布 细粒度的选择词 ...

Thu Jun 08 00:49:00 CST 2017 2 3904
NLTK学习笔记(五):分类和标注词汇

目录 词性标注器 标注语料库 表示已经标注的标识符:nltk.tag.str2tuple('word/类型') 读取已经标注的语料库 名词、动词、形容词等 尝试找出每个名词类型中最频繁的名词 探索已经标注的语料库 ...

Tue Jun 13 08:05:00 CST 2017 0 3501
NLTK学习笔记(七):文本信息提取

目录 实体识别:分块技术 分块语法的构建 树状图 IOB标记 开发和评估分块器 命名实体识别和信息提取 如何构建 ...

Tue Jun 20 06:15:00 CST 2017 0 7437
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM