原文:用R進行文本分析初探——以《紅樓夢》為例

一.寫在前面的話 剛吃飯的時候同學問我,你為什么要用R做文本分析,你不是應該用R建模么,在我和她解釋了一會兒后,她囑咐我好好寫這篇博文,嗯為了娟兒同學,細細說一會兒文本分析。 文本數據挖掘 Text Mining 是指從文本數據中抽取有價值的信息和知識的計算機處理技術。顧名思義,文本數據挖掘是從文本中進行數據挖掘 Data Mining 。從這個意義上講,文本數據挖掘是數據挖掘的一個分支。 文本分 ...

2016-03-21 20:12 1 21301 推薦指數:

查看詳情

朴素貝葉斯文本分類-在《紅樓夢》作者鑒別的應用上(python實現)

朴素貝葉斯算法簡單、高效。接下來我們來介紹其如何應用在《紅樓夢》作者的鑒別上。 第一步,當然是先得有文本數據,我在網上隨便下載了一個txt(當時急着交初稿。。。)。分類肯定是要一個回合一個回合的分,所以我們拿到文本數據后,先進行回合划分。然后就是去標點符號、分詞,做詞頻統計 ...

Tue Jun 06 01:04:00 CST 2017 1 2560
紅樓夢人物關系

第一代:水字輩祖宗創下基業 賈源、賈演兄弟二人幫先帝打江山立下戰功,賈演被封為寧國公(大約有平定江山安寧天下之意),賈源被封榮國公(大約有強國富民之功)。賈源賈演二兄弟皆是一脈單傳,賈演的兒子是賈代 ...

Fri Nov 24 01:15:00 CST 2017 0 993
紅樓夢作者解析

紅樓夢作者解析 https://github.com/Adnios/RedDream.git程序代碼放在了GitHub上了~~~~~~~~~~~~~~~~~~~~~~~ 摘要 本文通過對120章回中主要人物名稱出現的頻率、虛詞的詞頻、詞與詞之間的相關性以及前后的寫作風格的比較來進行紅樓夢作者 ...

Tue Jan 15 18:36:00 CST 2019 0 832
紅樓夢——前五回

一、甄士隱夢幻識通靈 賈雨村風塵懷閨秀 《石頭記》緣起:女媧補天用了三萬六千五百零一塊中的三萬六千五百塊,就一塊沒用,這塊石頭經過鍛煉后,已通靈性。一僧一道路過,在上面鐫刻字,准備讓石頭到昌明隆盛之 ...

Thu Mar 17 23:05:00 CST 2022 0 951
紅樓夢》薛蝌詳解

淺談薛蝌——真全場唯一好男人(bushi) ·薛蝌何人也? According to 百度百科: ·我們看看他在書中出現的地方—— 其之一:薛蝌的出場——第四十九回 琉璃世界白雪紅梅  ...

Sat Mar 13 05:11:00 CST 2021 2 383
紅樓夢 各版本及資料

ed2k://|file|曹雪芹:紅樓夢(紅研所校注本)(ED2000.COM).pdf|33292681|0dd36634b30365c9c31053875ad14b86|h=3C3SVTE2V6P4GXUMTUKUQB4MOGIFJ6YB|/ ed2k://|file|曹雪芹:紅樓夢(紅研 ...

Tue Mar 24 02:31:00 CST 2020 0 1101
Python3紅樓夢人名出現次數統計分析

一、程序說明 本程序流程是讀取紅樓夢txt文件----使用jieba進行分詞----借助Counter讀取各人名出現次數並排序----使用matplotlib將結果可視化 這里的統計除了將“熙鳳”出現的次數合並到“鳳姐”中外並沒有其他處理,但應該也大體能反映人物提及次數情況 二、執行 ...

Wed Jun 20 04:49:00 CST 2018 0 6841
87版《紅樓夢》與原著回目對應表

87版紅樓------原著 第01集:林黛玉拋父進京都 第02集:寶黛釵初會榮慶堂------前五回 第03集:劉姥姥一進榮國府----第六、七回 第04集:探寶釵黛玉半含酸----第八、九、十回 第05集:王熙鳳毒設相思局----十一、十二回 第06集:王熙鳳協理寧國府----十三、十四、十五 ...

Sat Jun 06 08:28:00 CST 2020 0 4174
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM