標簽【DM】 - 碼上歡樂

在前段時間做本科畢業設計的時候，遇到了各個類別的樣本量分布不均的問題——某些類別的樣本數量極多，而有些類別的樣本數量極少，也就是所謂的類不平衡（class-imbalance）問題。 ...

許多商業企業運營中的大量數據，通常稱為購物籃事務（market basket transaction）。表中每一行對應一個事務，包含一個唯一標識TID。利用關聯分析的方法可以發現聯系如關聯規則或頻 ...

頻繁項集的產生格結構（lattice structure）常常用來表示所有可能的項集。發現頻繁項集的一個原始方法是確定格結構中每個候選項集的支持度。但是工作量比較大。另外有幾種方法可以降低產 ...

一，簡介偶然看到了國產數據庫——達夢數據庫。頓時起了興趣，搗鼓了一番。下面這段簡介摘自百度百科達夢數據庫是武漢華工達夢數據庫有限公司推出的具有完全自主知識產權的高性能數據 ...

1.分類分類是數據挖掘中的一項非常重要的任務，利用分類技術可以從數據集中提取描述數據類的一個函數或模型（也常稱為分類器），並把數據集中的每個對象歸結到某個已知的對象類中。從機器學習的觀點，分類 ...

Mahout學習算法訓練模型 mahout提供了許多分類算法，但許多被設計來處理非常大的數據集，因此可能會有點麻煩。另一方面，有些很容易上手，因為，雖然依然可擴展性，它們具有低 ...

購物籃數據常常包含關於商品何時被顧客購買的時間信息，可以使用這種信息，將顧客在一段時間內的購物拼接成事務序列，這些事務通常基於時間或空間的先后次序。問題描述一般地，序列是元素（element ...

本文簡單整理了以下內容：（一）維數災難（二）特征提取——線性方法 1. 主成分分析PCA 2. 獨立成分分析ICA 3. 線性判別分析LDA （一）維數災難（Curse ...

子圖模式頻繁子圖挖掘（frequent subgraph mining）：在圖的集合中發現一組公共子結構。圖和子圖圖是一種用來表示實體集之間聯系的數據結構。子圖，圖\(G' = (V ...

　　前陣子做了一些IT opreation analysis的research，從產線上取了一些J2EE server運行狀態的數據（CPU,Menory...），打算通過訓練JVM的數據來建立分類模 ...