R文本挖掘之jiebaR包

本文轉載自查看原文 2017-01-24 13:44 5499 R/ r

library(jiebaRD)
library(jiebaR) ##調入分詞的庫
cutter <- worker()
mydata =read.csv(file.choose(),fileEncoding = 'UTF-8',stringsAsFactors = FALSE,header=FALSE) ##讀入數據(特別注意，read.csv竟然可以讀取txt的文本)

content <-as.character(mydata) #將數據字符串化
segWords <- segment(content,cutter)

#讀取停止詞

#刪除停用詞（就是刪除一些介詞、嘆詞之類的詞語，這些詞語本身沒多大分析意義，但出現的頻率卻很高，比如"的、地、得、啊、嗯、呢、了、還、於是、那么、然后"等等。前提是必須要有一個停用詞庫，網上搜索即可下載，也是一個txt的文本文件，每行一個詞。網上有兩種版本，一種是500多個詞的，一種是1000多個詞的）
f<- read.table(file = file.choose(), stringsAsFactors = FALSE) #stopword.txt
stopwords <- c(NULL) #定義一個空對象stopwords，並賦值為“空”
for(i in 1:length(f)){ #for循環，length（f）求得停止詞庫詞條個數。
stopwords[i] <- f[i] #遍歷停止詞庫，將第【i】個停止詞賦值給stopwords
}

segWords <- gsub("[0-9a-zA-Z]+?","",segWords) #gsub用來去掉segWord文本中的數字，英文，但生成了空格，""產生了空格

library(stringr) #載入stringr包，僅用來去掉文本中的空格
segWords <- str_trim(segWords) #去掉segwords中的空格
txt.asvector <- unlist(segWords) #將segwords向量化
tableWord <- table(txt.asvector) #將txt.asvector生成為列聯表
Wordresult<- tableWord[order(-tableWord)] #將tableword降序排列，從多到少排序

library(wordcloud2) #調入繪制詞雲的庫
wordcloud2(Wordresult[1:100])

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 R語言文本挖掘+詞雲顯示（jiebaR包+wordcloud2包） R語言︱文本挖掘——詞雲wordcloud2包 R語言-文本挖掘 R語言tm包文本挖掘的學習 R語言文本挖掘 tm包使用 R語言文本挖掘1——詞雲制作，基於Rwordseg包 R語言︱文本挖掘之中文分詞包——Rwordseg包(原理、功能、詳解) R語言-文本挖掘主題模型文本分類文本挖掘的基本過程文本挖掘