Python 數據挖掘 工具包整理


連接器與io

數據庫

類別 Python R
MySQL mysql-connector-python(官方) RMySQL
Oracle cx_Oracle ROracle
MongoDB pymongo RMongo, rmongodb
ODBC pyodbc RODBC

IO類

類別 Python R
excel xlsxWriter, pandas.(from/to)_excel, openpyxl openxlsx::read.xlsx(2), xlsx::read.xlsx(2)
csv csv.writer read.csv(2), read.table
json json jsonlite
圖片 PIL jpeg, png, tiff, bmp

統計類

描述性統計

類別 Python R
描述性統計匯總 scipy.stats.descirbe summary
均值 scipy.stats.gmean(幾何平均數), scipy.stats.hmean(調和平均數), numpy.mean, numpy.nanmean, pandas.Series.mean mean
中位數 numpy.median, numpy.nanmediam, pandas.Series.median median
眾數 scipy.stats.mode, pandas.Series.mode 未知
分位數 numpy.percentile, numpy.nanpercentile, pandas.Series.quantile quantile
標准差 scipy.stats.std, scipy.stats.nanstd, numpy.std, pandas.Series.std sd
方差 numpy.var, pandas.Series.var var
變異系數 scipy.stats.variation 未知
協方差 numpy.cov, pandas.Series.cov cov
(Pearson)相關系數 scipy.stats.pearsonr, numpy.corrcoef, pandas.Series.corr cor
峰度 scipy.stats.kurtosis, pandas.Series.kurt e1071::kurtosis
偏度 scipy.stats.skew, pandas.Series.skew e1071::skewness
直方圖 numpy.histogram, numpy.histogram2d, numpy.histogramdd 未知

回歸

類別 Python R
普通最小二乘法回歸(ols) statsmodels.ols, sklearn.linear_model.LinearRegression lm,
廣義線性回歸(gls) statsmodels.gls nlme::gls, MASS::gls

假設檢驗

類別 Python R
t檢驗 statsmodels.stats.ttest_ind, statsmodels.stats.ttost_ind, statsmodels.stats.ttost.paired; scipy.stats.ttest_1samp, scipy.stats.ttest_ind, scipy.stats.ttest_ind_from_stats, scipy.stats.ttest_rel t.test
Pearson相關系數檢驗 scipy.stats.pearsonr cor.test

時間序列

類別 Python R
AR statsmodels.ar_model.AR ar
ARIMA statsmodels.arima_model.arima arima
VAR statsmodels.var_model.var 未知

SVM(支持向量機)

類別 Python R
支持向量分類器(SVC) sklearn.svm.SVC e1071::svm
非支持向量分類器(nonSVC) sklearn.svm.NuSVC 未知
線性支持向量分類器(Lenear SVC) sklearn.svm.LinearSVC 未知

基於臨近

類別 Python R
k-臨近分類器 sklearn.neighbors.KNeighborsClassifier 未知
半徑臨近分類器 sklearn.neighbors.RadiusNeighborsClassifier 未知
臨近重心分類器(Nearest Centroid Classifier) sklearn.neighbors.NearestCentroid 未知

貝葉斯

類別 Python R
朴素貝葉斯 sklearn.naive_bayes.GaussianNB e1071::naiveBayes
多維貝葉斯(Multinomial Naive Bayes) sklearn.naive_bayes.MultinomialNB 未知
伯努利貝葉斯(Bernoulli Naive Bayes) sklearn.naive_bayes.BernoulliNB 未知

決策樹

類別 Python R
決策樹分類器 sklearn.tree.DecisionTreeClassifier tree::tree, party::ctree
決策樹回歸器 sklearn.tree.DecisionTreeRegressor tree::tree, party::tree
隨機森林分類器 sklearn.ensemble.RandomForestClassifier randomForest::randomForest, party::cforest
隨機森林回歸器 sklearn.ensemble.RandomForestRegressor randomForest::randomForest, party::cforest

聚類

類別 Python R
kmeans scipy.cluster.kmeans.kmeans kmeans::kmeans
分層聚類 scipy.cluster.hierarchy.fcluster (stats::)hclust

關聯規則

類別 Python R
apriori算法 apriori(可靠性未知,不支持py3), PyFIM(可靠性未知,不可用pip安裝) arules::apriori
FP-Growth算法 fp-growth(可靠性未知,不支持py3), PyFIM(可靠性未知,不可用pip安裝) 未知

神經網絡

類別 Python R
神經網絡 neurolab.net, keras.* nnet::nnet, nueralnet::nueralnet
深度學習 keras.* 不可靠包居多以及未知

 

文本基本操作

 

類別

Python R
tokenize nltk.tokenize(英), jieba.tokenize(中) tau::tokenize
stem nltk.stem RTextTools::wordStem, SnowballC::wordStem
stopwords stop_words.get_stop_words tm::stopwords, qdap::stopwords
中文分詞 jieba.cut, smallseg, Yaha, finalseg, genius jiebaR
TFIDF gensim.models.TfidfModel 未知


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM