朴素貝葉斯算法簡單、高效。接下來我們來介紹其如何應用在《紅樓夢》作者的鑒別上。 第一步,當然是先得有文本數據,我在網上隨便下載了一個txt(當時急着交初稿。。。)。分類肯定是要一個回合一個回合的分,所以我們拿到文本數據后,先進行回合划分。然后就是去標點符號、分詞,做詞頻統計 ...
一.寫在前面的話 剛吃飯的時候同學問我,你為什么要用R做文本分析,你不是應該用R建模么,在我和她解釋了一會兒后,她囑咐我好好寫這篇博文,嗯為了娟兒同學,細細說一會兒文本分析。 文本數據挖掘 Text Mining 是指從文本數據中抽取有價值的信息和知識的計算機處理技術。顧名思義,文本數據挖掘是從文本中進行數據挖掘 Data Mining 。從這個意義上講,文本數據挖掘是數據挖掘的一個分支。 文本分 ...
2016-03-21 20:12 1 21301 推薦指數:
朴素貝葉斯算法簡單、高效。接下來我們來介紹其如何應用在《紅樓夢》作者的鑒別上。 第一步,當然是先得有文本數據,我在網上隨便下載了一個txt(當時急着交初稿。。。)。分類肯定是要一個回合一個回合的分,所以我們拿到文本數據后,先進行回合划分。然后就是去標點符號、分詞,做詞頻統計 ...
第一代:水字輩祖宗創下基業 賈源、賈演兄弟二人幫先帝打江山立下戰功,賈演被封為寧國公(大約有平定江山安寧天下之意),賈源被封榮國公(大約有強國富民之功)。賈源賈演二兄弟皆是一脈單傳,賈演的兒子是賈代 ...
紅樓夢作者解析 https://github.com/Adnios/RedDream.git程序代碼放在了GitHub上了~~~~~~~~~~~~~~~~~~~~~~~ 摘要 本文通過對120章回中主要人物名稱出現的頻率、虛詞的詞頻、詞與詞之間的相關性以及前后的寫作風格的比較來進行紅樓夢作者 ...
一、甄士隱夢幻識通靈 賈雨村風塵懷閨秀 《石頭記》緣起:女媧補天用了三萬六千五百零一塊中的三萬六千五百塊,就一塊沒用,這塊石頭經過鍛煉后,已通靈性。一僧一道路過,在上面鐫刻字,准備讓石頭到昌明隆盛之 ...
淺談薛蝌——真全場唯一好男人(bushi) ·薛蝌何人也? According to 百度百科: ·我們看看他在書中出現的地方—— 其之一:薛蝌的出場——第四十九回 琉璃世界白雪紅梅 ...
ed2k://|file|曹雪芹:紅樓夢(紅研所校注本)(ED2000.COM).pdf|33292681|0dd36634b30365c9c31053875ad14b86|h=3C3SVTE2V6P4GXUMTUKUQB4MOGIFJ6YB|/ ed2k://|file|曹雪芹:紅樓夢(紅研 ...
一、程序說明 本程序流程是讀取紅樓夢txt文件----使用jieba進行分詞----借助Counter讀取各人名出現次數並排序----使用matplotlib將結果可視化 這里的統計除了將“熙鳳”出現的次數合並到“鳳姐”中外並沒有其他處理,但應該也大體能反映人物提及次數情況 二、執行 ...
87版紅樓------原著 第01集:林黛玉拋父進京都 第02集:寶黛釵初會榮慶堂------前五回 第03集:劉姥姥一進榮國府----第六、七回 第04集:探寶釵黛玉半含酸----第八、九、十回 第05集:王熙鳳毒設相思局----十一、十二回 第06集:王熙鳳協理寧國府----十三、十四、十五 ...