原文:利用条件随机场模型进行中文分词

中文分词的方法非常多,基于词库是最基本的,但是当前各大互联网公司基本上不会仅仅依赖于词库的分词,一般以机器学习的分词为主,词库分词的方式为辅。在很久以前,我提过利用隐马尔科夫模型进行中文分词,条件随机场其实是隐马尔科夫模型的一次升级版本,网上有很多关于条件随机场模型的分词,但是基本上很难看懂,也许是论文的缘故,那些作者习惯了一上来就是一堆复杂的公式,我也看了一些,获取有些作者自己都没搞懂,就弄了 ...

2015-10-22 09:24 2 6987 推荐指数:

查看详情

利用统计进行中文分词与词性分析

  今天,翻出了我以前在本科阶段写的一些论文,虽然有几篇没有发表。突然发现很多还是比较实用,虽然学术价值并不是很大,于是我重新整理了下,用最简单的方式,摘要了部分出来拼成此文,当然拼的原料都是自己的,本文适合初学者,如若转载,请著名版权。   中文分词已经是老调重弹的话题了,传统的基于词库的分词 ...

Tue Jan 08 07:26:00 CST 2013 6 4666
python利用jieba进行中文分词去停用词

中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。 分词模块jieba,它是python比较好用的分词模块。待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意:不建议直接输入 GBK ...

Sun Mar 11 00:29:00 CST 2018 0 4744
条件随机场入门(二) 条件随机场模型表示

linear-chain 条件随机场 条件随机场(conditional random field)是给定随机变量 X 条件下,随机变量 Y 的马尔可夫随机场。本文主要介绍定义在线性链上的特殊的条件随机场,称为线性链条件随机场(linear-chain CRF)。线性链条件随机场可以用于机器学习 ...

Mon Aug 29 23:38:00 CST 2016 0 12132
IKAnalyzer进行中文分词和去停用词

最近学习主题模型pLSA、LDA,就想拿来试试中文。首先就是找文本进行切词、去停用词等预处理,这里我找了开源工具IKAnalyzer2012,下载地址:(:(注意:这里尽量下载最新版本,我这里用的IKAnalyzer2012.zip 这本版本后来测试时发现bug,这里建议 ...

Wed Jan 14 07:30:00 CST 2015 0 16484
CRF++进行中文分词实例

工具包:https://taku910.github.io/crfpp/#tips 语料:http://sighan.cs.uchicago.edu/bakeoff2005/ 安装: 1)下载l ...

Sun Dec 02 23:52:00 CST 2018 0 3092
R语言进行中文分词和聚类

目标:对大约6w条微博进行分类 环境:R语言 由于时间较紧,且人手不够,不能采用分类方法,主要是没有时间人工分类一部分生成训练集……所以只能用聚类方法,聚类最简单的方法无外乎:K-means与层次聚类。 尝试过使用K-means方法,但结果并不好,所以最终采用的是层次聚类,也幸亏 ...

Thu Sep 12 05:47:00 CST 2013 0 10452
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM