最近在用jieba库分词,自己做了一个语料库,但是用 jieba.load_userdict("all_yuliaoku1.txt")加载自己的语料库出现了分词不准确的问题,某些词语一直分不出来。 后来根据 个人猜测是和这个jieba.cache有关,之前看过资料,jieba分词 ...
在linux环境下,没有root权限的情况下,有时会碰到如下问题: 这是因为jieba默认情况下在 tmp下存储缓存文件,然而不是root用户,权限不够。解决办法是修改默认缓存文件的目录,把缓存文件放在用户的目录下面。jieba文档提到了tmp dir和cache file可以改,所以我们查看了下源码 修改源码,在 行self.tmp dir中可以设置自定义缓存路径。 另外一种方式是在代码中修改, ...
2019-03-26 14:29 0 931 推荐指数:
最近在用jieba库分词,自己做了一个语料库,但是用 jieba.load_userdict("all_yuliaoku1.txt")加载自己的语料库出现了分词不准确的问题,某些词语一直分不出来。 后来根据 个人猜测是和这个jieba.cache有关,之前看过资料,jieba分词 ...
如果在高并发时候,使用这种单例模式 publci class Singleton{ private static Singleton instance = null; private Singleton(){} public static Singleton ...
今天使用jieba分词时,发现 jieba.load_userdict('userdict.txt') 并没有将自定义的词给保留下载,比如原文本中包含了 “不开心”,我想把“不开心”保留下来【ps:在常用的那几种模式中,都会分成 不 / 开心,所以想到将“不开心”,自定义到词典中来达到目的 ...
1. 安装gcc 首先下载新版本的gcc:http://ftp.gnu.org/gnu/gcc/ 安装GCC主要依赖三个库:GMP, MPFR 和MP)。之前的旧版本可能需要手动依次安装这些依赖库 ...
把语料从数据库提取出来以后就要进行分词啦,我是在linux环境下做的,先把jieba安装好,然后找到内容是build jieba PKG-INFO setup.py test的那个文件夹(我这边是jieba-0.38),把自己的自定义词典(选用,目的是为了分出原始词库中没有的词以及优先 ...
在使用xib自定义view的时候,个人习惯性的直接使用xib中的约束,所以自然而然的要打开Autolayout。以前在使用的时候没有发现什么问题,最近项目中使用的时候突然发现在导航栏透明的情况下,出现实际的frame比设置的frame高度缩小64的问题,然后上网查找各种博客,最后差点 ...
Problem 最近工作中遇到个问题,就是开发是在服务器上,没有desktop没有UI的那种,想来想去也就只能用vim了。 但是服务器上的vim版本比较低,一些插件都安装不了。想更新vim呢,又没有root权限,不能直接升级软件包。 看来只能走源码编译这条路了。但是还有个问题,就是vim编译所需 ...
先建个list,名字叫:data_content 里面的内容如上图。要把数据处理成上面那样的 先分词、过滤。 最后引入如下代码: 最后一步,引用 ...