原文:用R进行文本分析初探——以《红楼梦》为例

一.写在前面的话 刚吃饭的时候同学问我,你为什么要用R做文本分析,你不是应该用R建模么,在我和她解释了一会儿后,她嘱咐我好好写这篇博文,嗯为了娟儿同学,细细说一会儿文本分析。 文本数据挖掘 Text Mining 是指从文本数据中抽取有价值的信息和知识的计算机处理技术。顾名思义,文本数据挖掘是从文本中进行数据挖掘 Data Mining 。从这个意义上讲,文本数据挖掘是数据挖掘的一个分支。 文本分 ...

2016-03-21 20:12 1 21301 推荐指数:

查看详情

朴素贝叶斯文本分类-在《红楼梦》作者鉴别的应用上(python实现)

朴素贝叶斯算法简单、高效。接下来我们来介绍其如何应用在《红楼梦》作者的鉴别上。 第一步,当然是先得有文本数据,我在网上随便下载了一个txt(当时急着交初稿。。。)。分类肯定是要一个回合一个回合的分,所以我们拿到文本数据后,先进行回合划分。然后就是去标点符号、分词,做词频统计 ...

Tue Jun 06 01:04:00 CST 2017 1 2560
红楼梦人物关系

第一代:水字辈祖宗创下基业 贾源、贾演兄弟二人帮先帝打江山立下战功,贾演被封为宁国公(大约有平定江山安宁天下之意),贾源被封荣国公(大约有强国富民之功)。贾源贾演二兄弟皆是一脉单传,贾演的儿子是贾代 ...

Fri Nov 24 01:15:00 CST 2017 0 993
红楼梦作者解析

红楼梦作者解析 https://github.com/Adnios/RedDream.git程序代码放在了GitHub上了~~~~~~~~~~~~~~~~~~~~~~~ 摘要 本文通过对120章回中主要人物名称出现的频率、虚词的词频、词与词之间的相关性以及前后的写作风格的比较来进行红楼梦作者 ...

Tue Jan 15 18:36:00 CST 2019 0 832
红楼梦——前五回

一、甄士隐梦幻识通灵 贾雨村风尘怀闺秀 《石头记》缘起:女娲补天用了三万六千五百零一块中的三万六千五百块,就一块没用,这块石头经过锻炼后,已通灵性。一僧一道路过,在上面镌刻字,准备让石头到昌明隆盛之 ...

Thu Mar 17 23:05:00 CST 2022 0 951
红楼梦》薛蝌详解

浅谈薛蝌——真全场唯一好男人(bushi) ·薛蝌何人也? According to 百度百科: ·我们看看他在书中出现的地方—— 其之一:薛蝌的出场——第四十九回 琉璃世界白雪红梅  ...

Sat Mar 13 05:11:00 CST 2021 2 383
红楼梦 各版本及资料

ed2k://|file|曹雪芹:红楼梦(红研所校注本)(ED2000.COM).pdf|33292681|0dd36634b30365c9c31053875ad14b86|h=3C3SVTE2V6P4GXUMTUKUQB4MOGIFJ6YB|/ ed2k://|file|曹雪芹:红楼梦(红研 ...

Tue Mar 24 02:31:00 CST 2020 0 1101
Python3红楼梦人名出现次数统计分析

一、程序说明 本程序流程是读取红楼梦txt文件----使用jieba进行分词----借助Counter读取各人名出现次数并排序----使用matplotlib将结果可视化 这里的统计除了将“熙凤”出现的次数合并到“凤姐”中外并没有其他处理,但应该也大体能反映人物提及次数情况 二、执行 ...

Wed Jun 20 04:49:00 CST 2018 0 6841
87版《红楼梦》与原著回目对应表

87版红楼------原著 第01集:林黛玉抛父进京都 第02集:宝黛钗初会荣庆堂------前五回 第03集:刘姥姥一进荣国府----第六、七回 第04集:探宝钗黛玉半含酸----第八、九、十回 第05集:王熙凤毒设相思局----十一、十二回 第06集:王熙凤协理宁国府----十三、十四、十五 ...

Sat Jun 06 08:28:00 CST 2020 0 4174
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM