原文:使用R语言进行主题发现(一)

写作目的 最近由于研究需要,使用R语言对文本进行了主题发现,下面对具体过程进行记录。 步骤一:读取文本并进行预处理 本实验中主要对从SCI引文数据库中关于bigdata的索引记录进行分析,文件后缀为,目录为c: data ,具体代码为: 获取目录下所有的txt文本路径 fileList lt list.files path C: data ,full.names T,pattern .txt 按行 ...

2014-11-22 11:18 0 2864 推荐指数:

查看详情

R语言进行文本挖掘和主题建模

欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 我们每天都会遇到各种各样的文本数据,但大部分是非结构化的,并不是全部都是有价值的。 据估计,全球约80%的数据是非结构化的。这包括音频, ...

Fri May 18 00:46:00 CST 2018 1 1843
R语言使用函数sample进行抽样

在医学统计学或者流行病学里的现场调查、样本选择经常会提到一个词:随机抽样。随机抽样是为了保证各比较组之间均衡性的一个很重要的方法。那么今天介绍的第一个函数就是用于抽样的函数sample: ...

Tue Nov 13 20:36:00 CST 2018 0 1434
使用R语言进行简单的线性回归

summary() 函数查看一下相关摘要 使用求出来的线性模型进行预测 通过画图展示测试数据的线性 ...

Sun Aug 02 03:30:00 CST 2020 0 774
R笔记】使用R语言进行异常检测

本文转载自cador 《使用R语言进行异常检测》 本文结合R语言,展示了异常检测的案例,主要内容如下: (1)单变量的异常检测 (2)使用LOF(local outlier factor,局部异常因子)进行异常检测 (3)通过聚类进行异常检测 (4)对时间 ...

Sat May 28 04:21:00 CST 2016 0 2143
使用R语言进行时间序列分析

一、时间序列的定义 时间序列是将统一统计值按照时间发生的先后顺序来进行排列,时间序列分析的主要目的是根据已有数据对未来进行预测。一个稳定的时间序列中常常包含两个部分,那么就是:有规律的时间序列+噪声。所以,在以下的方法中,主要的目的就是去过滤噪声值,让我们的时间序列更加的有分析意义。二、时间序列 ...

Sun Apr 19 20:14:00 CST 2020 0 2793
R语言使用tryCatch进行简单的错误处理

最近在看《机器学习:实用案例解析》,做邮件过滤器的时候,参考书中的代码读取邮件文件进行分类器训练,在读取过程中会出现下面的错误: seq.default(which(text == "")[1] + 1, length(text), 1) : 'from ...

Tue Mar 28 19:06:00 CST 2017 0 5593
使用nmap进行主机发现

当网络不通时,我们需要ping一下主机,检查网关是否正常,这与主机发现原理一样。当测试目标是一个网络时,在线的主机才是我们的用主机发现的目标,nmap中提供了许多主机发现的方法,大多与TCP/IP协议簇中的协议有关。 1、跳过ping扫描阶段: nmap进行 ...

Sun Aug 30 19:18:00 CST 2020 0 2204
R语言--图形基本使用1

1 使用图形 1.1 交互式绘图 使用的是内置数据集:mtcars 画出散点图:plot(mtcars$mpg,mtcars$wt) 给图形加标题:title("车辆耗油与重量之间的关系") 加回归线:abline(lm(mpg~wt,data=mtcars)) (为什么我的没有回归线 ...

Fri Jul 02 23:36:00 CST 2021 1 169
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM