机器学习入门-数据过采样（上采样）1. SMOTE

本文转载自查看原文 2019-01-15 13:01 637

from imblearn.over_sampling import SMOTE # 导入

overstamp = SMOTE(random_state=0)

# 对训练集的数据进行上采样，测试集的数据不需要
SMOTE_train_x, SMOTE_train_y = overstamp.fit_sample(train_x, train_y)

由于数据分布的不均衡，因此对数据进行上采样，上采样的数据指的是将少数的样本扩增到与多数样本相同的样本数

使用的方法：

取少数样本中的一个数据，求出该样本与其他样本的距离，根据欧式距离进行排序，取出前5个数据

新数据的位置 X_new = X + rand(0, 1) * distance X表示当前数据的位置， distance表示与另外一个数据的欧式距离，乘上了一个随机值

# 进行数据过采样操作
from imblearn.over_sampling import SMOTE
from sklearn.cross_validation import train_test_split

X = data.loc[:, data.columns != 'Class']
y = data.loc[:, data.columns == 'Class']

train_x, test_x, train_y, test_y = train_test_split(X, y, test_size=0.3, random_state=0)
overstamp = SMOTE(random_state=0)

SMOTE_train_x, SMOTE_train_y = overstamp.fit_sample(train_x, train_y)
# 统计数据的标签0，1个数
print(pd.value_counts(SMOTE_train_y, sort=True).sort_index())

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 机器学习笔记：imblearn之SMOTE算法处理样本类别不平衡 python机器学习《入门》机器学习入门之认知 matlab 机器学习入门猪猪的机器学习（十六）采样和变分机器学习入门 - Google的机器学习速成课程机器学习入门05 - 泛化 (Generalization) 机器学习入门之一：基本概念机器学习入门介绍（非常易懂）机器学习01-入门