1. 文本分类 (1)分词: 中文分词系统 -- NLPIR(也叫ICTCLAS2013), 还有庖丁解牛分词器。 召回率(Recall):是指检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率。 精度(Precise):是指检索出的相关文档 ...
本挖掘典型地运用了机器学习技术,例如聚类,分类,关联规则,和预测建模。这些技术揭示潜在内容中的意义和关系。文本发掘应用于诸如竞争情报,生命科学,客户呼声,媒体和出版,法律和税收,法律实施,情感分析和趋势识别。 在本篇博客帖中,你将会学习到如何将机器学习技术应用到文本挖掘中。我将会向你展示如何使用RapidMiner 一款流行的预测分析开源工具 和亚马逊S 业务来创建一个文件挖掘应用。亚马逊S 业务 ...
2015-07-15 18:39 0 2054 推荐指数:
1. 文本分类 (1)分词: 中文分词系统 -- NLPIR(也叫ICTCLAS2013), 还有庖丁解牛分词器。 召回率(Recall):是指检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率。 精度(Precise):是指检索出的相关文档 ...
转眼间已经工作了一段时间了,回想起2014年初学机器学习时的付出、艰苦和努力,感觉都是值得的。从现在往前看,我是沿着“计算机->统计学->数据分析->数据挖掘->机器学习->文本挖掘”的路径走过来的,我觉得这个思路还是属于比较传统的进阶方法,学习的内容有不少的冗余 ...
《基于 MT-SVM 模型的市场预测》 • 由于 A 股市场并非完全有效以及市场具有的分形特征和记忆性,从理论上来说对股票市场一段时间内的市场趋势所发生的概率进行预测成为可能。 • 我们构建了 MT-SVM 预测模型来对市场涨跌方向进行预测。 预测模型的参数主要用到宏观经济变量、 技术指标变量 ...
有一些单纯搞计算机、数学或者物理的人会问,究竟怎么样应用 ML 在量化投资。他们能做些什么自己擅长的工作。虽然在很多平台或者自媒体有谈及有关的问题,但是不够全面和完整。从今日起,量化投资与机器学习公众号将推出一个系列【机器学习该如何应用到】。 一、什么是机器学习 机械的定义避开不谈,回答也不追 ...
最近在写机器学习的白话系列主题文章,突然有人问我,机器学习到底有什么用,如何才能用到实际生活中。我觉得很有必要停下脚步,来认真思考一下这个问题:机器学习,包括深度学习,自然语言处理,如何真正应用到实际生活中去。希望大家能够踊跃讨论。 说到机器学习,最出名的无非就是Google的AlphaGo ...
一,文本挖掘 1.1 什么是文本挖掘 文本挖掘是指从大量文本数据中抽取事先未知的,可理解的,最终可用的知识的过程,同时运用这些知识更好的组织信息以便将来参考。 简单的说,文本挖掘是从大量文本中,比如微博评论,知乎评论,淘宝评论等文本数据中抽取出有价值的知识,并利用 ...
一、文本挖掘定义 文本挖掘指的是从文本数据中获取有价值的信息和知识,它是数据挖掘中的一种方法。文本挖掘中最重要最基本的应用是实现文本的分类和聚类,前者是有监督的挖掘算法,后者是无监督的挖掘算法。 二、文本挖掘步骤 1)读取数据库或本地外部文本文件 2)文本分词 2.1)自定义字典 ...
众所周知,由于缺乏意识和缺乏技术的能力,很多组织的数据都在睡大觉。数据包含这关于客户、伙伴和竞争对手的相关信息,对其进行挖掘,可以提高组织竞争力 在数据洪流(data deluge)面前,文本挖掘的价值是不言而喻的。因为它能够帮助我们减轻信息过载的问题。 什么是文本挖掘 从文本 ...