R文本挖掘之jiebaR包


library(jiebaRD)
library(jiebaR)  ##調入分詞的庫
cutter <- worker()
mydata =read.csv(file.choose(),fileEncoding = 'UTF-8',stringsAsFactors = FALSE,header=FALSE) ##讀入數據(特別注意,read.csv竟然可以讀取txt的文本)

content <-as.character(mydata) #將數據字符串化
segWords <- segment(content,cutter)

#讀取停止詞

#刪除停用詞(就是刪除一些介詞、嘆詞之類的詞語,這些詞語本身沒多大分析意義,但出現的頻率卻很高,比如"的、地、得、啊、嗯、呢、了、還、於是、那么、然后"等等。前提是必須要有一個停用詞庫,網上搜索即可下載,也是一個txt的文本文件,每行一個詞。網上有兩種版本,一種是500多個詞的,一種是1000多個詞的)
f<- read.table(file = file.choose(), stringsAsFactors = FALSE) #stopword.txt
stopwords <- c(NULL) #定義一個空對象stopwords,並賦值為“空”
for(i in 1:length(f)){ #for循環,length(f)求得停止詞庫詞條個數。
stopwords[i] <- f[i] #遍歷停止詞庫,將第【i】個停止詞賦值給stopwords
}

segWords <- gsub("[0-9a-zA-Z]+?","",segWords) #gsub用來去掉segWord文本中的數字,英文,但生成了空格,""產生了空格

library(stringr) #載入stringr包,僅用來去掉文本中的空格
segWords <- str_trim(segWords) #去掉segwords中的空格
txt.asvector <- unlist(segWords) #將segwords向量化
tableWord <- table(txt.asvector) #將txt.asvector生成為列聯表
Wordresult<- tableWord[order(-tableWord)] #將tableword降序排列,從多到少排序

library(wordcloud2) #調入繪制詞雲的庫
wordcloud2(Wordresult[1:100])

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM