花费 31 ms
文本挖掘之文本聚类(DBSCAN)

刘 勇 Email:lyssym@sina.com 简介   鉴于基于划分的文本聚类方法只能识别球形的聚类,因此本文对基于密度的文本聚类算法展开研究。DBSCAN(Density-Based ...

Tue Nov 10 02:09:00 CST 2015 0 9890
使用训练好的word2vector进行文本聚类

尝试了使用词频的词表征进行kmeans,效果不好,所以考虑看看使用word2vec的词表征会有什么不同。 1.加载word2vec import gensimmodel = gensim.mode ...

Fri May 17 02:26:00 CST 2019 0 1885
文本挖掘之文本聚类(借力打力)

刘勇 Email:lyssym@sina.com 简介   在文本相似度判定中,作者将该算法用于文本聚类中,其核心思想通过比较两个文本向量中元素的相似度,即向量中所含的元素相似个数越多,则两 ...

Sun Oct 25 19:03:00 CST 2015 0 2171
基于LDA对关注的微博用户进行聚类

最近看了LDA以及文本聚类的一些方法,写在这里算是读书笔记。文章最后进行了一个小实验,通过爬取本人在微博上关注的人的微博,利用微博的内容,尝试将我关注的人按主题进行进行聚类。 文本聚类就是把一个文本 ...

Fri Jun 07 03:55:00 CST 2013 5 1649
利用LDA进行文本聚类(hadoop, mahout)

项目原理概述 利用sqoop将数据从MySQL导入到HDFS中,利用mahout的LDA的cvb实现对输入数据进行聚类,并将结果更新到数据库中。数据流向图如下 mahout算法分析输入数 ...

Thu Jul 03 00:11:00 CST 2014 0 2390

 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM