原文:使用R語言進行主題發現(一)

寫作目的 最近由於研究需要,使用R語言對文本進行了主題發現,下面對具體過程進行記錄。 步驟一:讀取文本並進行預處理 本實驗中主要對從SCI引文數據庫中關於bigdata的索引記錄進行分析,文件后綴為,目錄為c: data ,具體代碼為: 獲取目錄下所有的txt文本路徑 fileList lt list.files path C: data ,full.names T,pattern .txt 按行 ...

2014-11-22 11:18 0 2864 推薦指數:

查看詳情

R語言進行文本挖掘和主題建模

歡迎大家前往騰訊雲+社區,獲取更多騰訊海量技術實踐干貨哦~ 我們每天都會遇到各種各樣的文本數據,但大部分是非結構化的,並不是全部都是有價值的。 據估計,全球約80%的數據是非結構化的。這包括音頻, ...

Fri May 18 00:46:00 CST 2018 1 1843
R語言使用函數sample進行抽樣

在醫學統計學或者流行病學里的現場調查、樣本選擇經常會提到一個詞:隨機抽樣。隨機抽樣是為了保證各比較組之間均衡性的一個很重要的方法。那么今天介紹的第一個函數就是用於抽樣的函數sample: ...

Tue Nov 13 20:36:00 CST 2018 0 1434
使用R語言進行簡單的線性回歸

summary() 函數查看一下相關摘要 使用求出來的線性模型進行預測 通過畫圖展示測試數據的線性 ...

Sun Aug 02 03:30:00 CST 2020 0 774
R筆記】使用R語言進行異常檢測

本文轉載自cador 《使用R語言進行異常檢測》 本文結合R語言,展示了異常檢測的案例,主要內容如下: (1)單變量的異常檢測 (2)使用LOF(local outlier factor,局部異常因子)進行異常檢測 (3)通過聚類進行異常檢測 (4)對時間 ...

Sat May 28 04:21:00 CST 2016 0 2143
使用R語言進行時間序列分析

一、時間序列的定義 時間序列是將統一統計值按照時間發生的先后順序來進行排列,時間序列分析的主要目的是根據已有數據對未來進行預測。一個穩定的時間序列中常常包含兩個部分,那么就是:有規律的時間序列+噪聲。所以,在以下的方法中,主要的目的就是去過濾噪聲值,讓我們的時間序列更加的有分析意義。二、時間序列 ...

Sun Apr 19 20:14:00 CST 2020 0 2793
R語言使用tryCatch進行簡單的錯誤處理

最近在看《機器學習:實用案例解析》,做郵件過濾器的時候,參考書中的代碼讀取郵件文件進行分類器訓練,在讀取過程中會出現下面的錯誤: seq.default(which(text == "")[1] + 1, length(text), 1) : 'from ...

Tue Mar 28 19:06:00 CST 2017 0 5593
使用nmap進行主機發現

當網絡不通時,我們需要ping一下主機,檢查網關是否正常,這與主機發現原理一樣。當測試目標是一個網絡時,在線的主機才是我們的用主機發現的目標,nmap中提供了許多主機發現的方法,大多與TCP/IP協議簇中的協議有關。 1、跳過ping掃描階段: nmap進行 ...

Sun Aug 30 19:18:00 CST 2020 0 2204
R語言--圖形基本使用1

1 使用圖形 1.1 交互式繪圖 使用的是內置數據集:mtcars 畫出散點圖:plot(mtcars$mpg,mtcars$wt) 給圖形加標題:title("車輛耗油與重量之間的關系") 加回歸線:abline(lm(mpg~wt,data=mtcars)) (為什么我的沒有回歸線 ...

Fri Jul 02 23:36:00 CST 2021 1 169
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM