原文:數據挖掘學習02 - 使用weka的kmeans聚類分析

本文目的 weka是一套使用java開發的數據挖掘工具集合,提供GUI CLI界面和Java API使用方式。所以,在學習和解決數據挖掘問題時,可以先嘗試用weka的GUI或CLI做出合適的分析,找到適當的算法,然后在將此算法集成到自己的項目中。最近在的項目中遇到了文本聚類的問題,kmeans是一種常見的聚類算法,這里先拿此算法和示例數據做一些實驗,以便熟悉weka的界面操作。 什么是kmeans ...

2012-10-15 21:12 3 19794 推薦指數:

查看詳情

數據挖掘——聚類分析總結

聚類分析 一、概念   聚類分析是按照個體的特征將他們分類,讓同一個類別內的個體之間具有較高的相似度,不同類別之間具有較大的差異性   聚類分析屬於無監督學習   聚類對象可以分為Q型聚類和R型聚類     Q型聚類:樣本/記錄聚類 以距離為相似性指標 (歐氏距離、歐氏平方距離 ...

Sat Oct 27 23:02:00 CST 2018 0 17917
文本分析 - 聚類分析數據挖掘

文本分析,在數據挖掘,甚至是深度學習中很重要的分支研究領域。如下運用R語言,通過采用文本相似度算法Jaro-Winkler Distance,能實現: 在題庫中查找出相似度高的題並輸出自動聚類的結果,從而提煉出練習重點,提高閱讀效率。 ## 尋找練習重點 library ...

Thu Jan 07 16:09:00 CST 2021 0 643
數據挖掘簡述和weka介紹--數據挖掘學習weka使用(一)

寫在開篇 weka用了一些時日了,覺得真心不錯。功能很完善,而且是開源的。最重要的擴展方便,非常適合搞研究和做全國大學生數學建模之類的比賽。 我學習weka主要是看的一本數據挖掘weka使用的書,是英文的。國內有中文版…但是不想吐就不要看譯本吧,不知道是翻譯的人是怎么想的. 我寫博文的順序 ...

Thu Mar 29 21:31:00 CST 2012 10 11127
數據挖掘學習08 - 實驗:使用R評估kmeans聚類的最優K

本文目的 最近這幾天一直在研究如何評估Kmeans聚類算法中的最優K值。主要理論依據是《數據挖掘導論》8.5.5節中介紹的SSE和Silhouette Coefficient系數的方法評估最優K。現在記錄整個實驗過程,作為備忘。不過,體驗過程中,由於R軟件使用的還不太熟練,實現過程中有些地方 ...

Fri Nov 09 05:27:00 CST 2012 2 11933
WEKA使用(基礎配置+垃圾郵件過濾+聚類分析+關聯挖掘

聲明: 1)本文由我bitpeach原創撰寫,轉載時請注明出處,侵權必究。 2)本小實驗工作環境為Windows系統下的WEKA,實驗內容主要有三部分,第一是分類挖掘(垃圾郵件過濾),第二是聚類分析,第三是關聯挖掘。 3)本文由於過長,且實驗報告內的評估觀點有時不一定正確,希望 ...

Fri Jun 06 00:24:00 CST 2014 2 5832
輸入數據與ARFF文件--數據挖掘學習weka使用(二)

我個人認為直接討論數據挖掘算法和weka使用過於心急。我一開始就直接學習數據挖掘方法,有些方法艱澀枯燥,我常常在思考的不是方法本身,而是“這是干什么的?”。 在使用weka后有些東西漸漸清晰,因為輸入和輸出給了人很直觀的感覺,再結合技術本身學習效率很高。 輸入主要有三類:概念、實例和屬性 ...

Fri Mar 30 08:21:00 CST 2012 7 25573
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM