朴素贝叶斯算法简单、高效。接下来我们来介绍其如何应用在《红楼梦》作者的鉴别上。 第一步,当然是先得有文本数据,我在网上随便下载了一个txt(当时急着交初稿。。。)。分类肯定是要一个回合一个回合的分,所以我们拿到文本数据后,先进行回合划分。然后就是去标点符号、分词,做词频统计 ...
一.写在前面的话 刚吃饭的时候同学问我,你为什么要用R做文本分析,你不是应该用R建模么,在我和她解释了一会儿后,她嘱咐我好好写这篇博文,嗯为了娟儿同学,细细说一会儿文本分析。 文本数据挖掘 Text Mining 是指从文本数据中抽取有价值的信息和知识的计算机处理技术。顾名思义,文本数据挖掘是从文本中进行数据挖掘 Data Mining 。从这个意义上讲,文本数据挖掘是数据挖掘的一个分支。 文本分 ...
2016-03-21 20:12 1 21301 推荐指数:
朴素贝叶斯算法简单、高效。接下来我们来介绍其如何应用在《红楼梦》作者的鉴别上。 第一步,当然是先得有文本数据,我在网上随便下载了一个txt(当时急着交初稿。。。)。分类肯定是要一个回合一个回合的分,所以我们拿到文本数据后,先进行回合划分。然后就是去标点符号、分词,做词频统计 ...
第一代:水字辈祖宗创下基业 贾源、贾演兄弟二人帮先帝打江山立下战功,贾演被封为宁国公(大约有平定江山安宁天下之意),贾源被封荣国公(大约有强国富民之功)。贾源贾演二兄弟皆是一脉单传,贾演的儿子是贾代 ...
红楼梦作者解析 https://github.com/Adnios/RedDream.git程序代码放在了GitHub上了~~~~~~~~~~~~~~~~~~~~~~~ 摘要 本文通过对120章回中主要人物名称出现的频率、虚词的词频、词与词之间的相关性以及前后的写作风格的比较来进行红楼梦作者 ...
一、甄士隐梦幻识通灵 贾雨村风尘怀闺秀 《石头记》缘起:女娲补天用了三万六千五百零一块中的三万六千五百块,就一块没用,这块石头经过锻炼后,已通灵性。一僧一道路过,在上面镌刻字,准备让石头到昌明隆盛之 ...
浅谈薛蝌——真全场唯一好男人(bushi) ·薛蝌何人也? According to 百度百科: ·我们看看他在书中出现的地方—— 其之一:薛蝌的出场——第四十九回 琉璃世界白雪红梅 ...
ed2k://|file|曹雪芹:红楼梦(红研所校注本)(ED2000.COM).pdf|33292681|0dd36634b30365c9c31053875ad14b86|h=3C3SVTE2V6P4GXUMTUKUQB4MOGIFJ6YB|/ ed2k://|file|曹雪芹:红楼梦(红研 ...
一、程序说明 本程序流程是读取红楼梦txt文件----使用jieba进行分词----借助Counter读取各人名出现次数并排序----使用matplotlib将结果可视化 这里的统计除了将“熙凤”出现的次数合并到“凤姐”中外并没有其他处理,但应该也大体能反映人物提及次数情况 二、执行 ...
87版红楼------原著 第01集:林黛玉抛父进京都 第02集:宝黛钗初会荣庆堂------前五回 第03集:刘姥姥一进荣国府----第六、七回 第04集:探宝钗黛玉半含酸----第八、九、十回 第05集:王熙凤毒设相思局----十一、十二回 第06集:王熙凤协理宁国府----十三、十四、十五 ...