花费 30 ms
中文分词工具jieba中的词性类型

jieba为自然语言语言中常用工具包,jieba具有对分词的词性进行标注的功能,词性类别如下: Ag 形语素 形容词性语素。形容词代码为 a,语素代码g前面置以A。 a 形容词 取英语 ...

Sat Jul 16 00:26:00 CST 2016 1 27319
word2vec初探(用python简单实现)

为什么要用这个? 因为看论文和博客的时候很常见,不论是干嘛的,既然这么火,不妨试试. 如何安装 从网上爬数据下来 对数据进行过滤、分词 用word2vec进行近义词查找等操作 ...

Wed Dec 27 17:44:00 CST 2017 0 12140
中文分词实战——基于jieba动态加载字典和调整词频的电子病历分词

分词是自然语言处理中最基本的一个任务,这篇小文章不介绍相关的理论,而是介绍一个电子病历分词的小实践。 开源的分词工具中,我用过的有jieba、hnlp和stanfordnlp,感觉jieba无论安装和使用都比较便捷,拓展性也比较好。是不是直接调用开源的分词工具,就可以得到比较好的分词效果呢?答案 ...

Sat Mar 16 00:44:00 CST 2019 8 2970
ElasticSearch自定义分析器-集成结巴分词插件

关于结巴分词 ElasticSearch 插件: https://github.com/huaban/elasticsearch-analysis-jieba 该插件由huaban开发。支持Elastic Search 版本<=2.3.5。 结巴分词分析器 结巴分词插件提供3个分析器 ...

Tue Feb 07 19:46:00 CST 2017 0 7104
中文分词组件:thulac及jieba试用手记

一、THULAC THULAC由《清华大学自然语言处理与社会人文计算实验室》研制推出的一套中文词法分析工具包。官网地址:http://thulac.thunlp.org,该项目提供了多种语言,本文以 ...

Fri Aug 10 22:14:00 CST 2018 0 3755
基于python语言使用余弦相似性算法进行文本相似度分析

编写此脚本的目的:   本人从事软件测试工作,近两年发现项目成员总会提出一些内容相似的问题,导致开发抱怨。一开始想搜索一下是否有此类工具能支持查重的工作,但并没找到,因此写了这个工具。通过从纸上谈兵 ...

Tue Jul 09 18:21:00 CST 2019 0 2031
PyInstaller 打包 python程序成exe

pychaim下PyInstaller 打包 python程序 主题是使用PyInstaller 打包python时遇到一些问题以及解决方案,其中将要打包的程序是用tensorflow做的L ...

Sun Dec 30 00:33:00 CST 2018 0 2663
Matplotlib学习---用wordcloud画词云(Word Cloud)

画词云首先需要安装wordcloud(生成词云)和jieba(中文分词)。 先来说说wordcloud的安装吧,真是一波三折。首先用pip install wordcloud出现错误,说需要安装Visual C++ 14.0。折腾半天安装好Visual C++后,还是不行,按网上指点,下载 ...

Fri Sep 21 20:18:00 CST 2018 0 3019
NLP 自然语言处理实战

前言 自然语言处理 ( Natural Language Processing, NLP) 是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论 ...

Mon Mar 28 22:43:00 CST 2022 0 2647

 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM