什么是非均匀数据重采样？哪种非均匀数据重采样方法更适合你？

2024-09-02 来源：elecfans

在数据分析和机器学习领域，我们常常需要处理非均匀数据。非均匀数据是指具有不平衡分布或样本数量不均等的数据集。为了准确建模和预测，我们需要对这些非均匀数据进行重采样。本文将详细介绍什么是非均匀数据重采样以及如何应用不同的方法来解决这一问题。

一、什么是非均匀数据重采样？

非均匀数据重采样是一种数据处理技术，用于解决数据集中存在的类别不平衡或样本数量不均等的问题。在非均匀数据中，某些类别的样本数量很少，而其他类别的样本数量很多。这种不平衡会导致建模和预测过程中的偏差，影响结果的准确性。

非均匀数据重采样的目标是通过增加少数类别的样本数量或减少多数类别的样本数量，使得数据集更加平衡。通过重采样，我们可以在保持数据分布特征的前提下，增加较少样本的可用性，从而提高模型的性能。

二、常见的非均匀数据重采样方法和Python示例

（1）过采样（Oversampling）：过采样方法通过增加少数类别的样本数量来平衡数据集。其中一种常见的方法是复制少数类别的样本，使其在数据集中出现多次。然而，简单复制样本可能会导致过拟合问题。因此，一些改进的过采样方法被提出，如SMOTE（合成少数类过采样技术）和ADASYN（自适应合成）等，它们根据少数类别样本之间的距离关系合成新的样本。

使用imbalanced-learn库中的RandomOverSampler方法进行过采样：

from imblearn.over_sampling import RandomOverSampler

X_resampled, y_resampled = RandomOverSampler().fit_resample(X, y)

使用imbalanced-learn库中的SMOTE方法进行合成少数类过采样：

from imblearn.over_sampling import SMOTE

X_resampled, y_resampled = SMOTE().fit_resample(X, y)

完整示例：

import pandas as pd

from sklearn.model_selection import train_test_split

from sklearn.linear_model import LogisticRegression

from imblearn.over_sampling import RandomOverSampler

from sklearn.metrics import classification_report

# 加载数据集

data = pd.read_csv('your_dataset.csv')

# 分割特征和目标变量

X = data.drop('target', axis=1)

y = data['target']

# 将数据集拆分为训练集和测试集

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 方法1.创建RandomOverSampler对象

ros = RandomOverSampler(random_state=42)

# 对训练集进行过采样

X_train_resampled, y_train_resampled = ros.fit_resample(X_train, y_train)

# 方法2创建SMOTE对象

# smote = SMOTE(random_state=42)

# 对训练集进行过采样

# X_train_resampled, y_train_resampled = smote.fit_resample(X_train, y_train)

# 使用过采样后的数据训练模型

model = LogisticRegression()

model.fit(X_train_resampled, y_train_resampled)

# 在测试集上进行预测

y_pred = model.predict(X_test)

# 输出分类报告

print(classification_report(y_test, y_pred))

（2）欠采样（Undersampling）：欠采样方法通过减少多数类别的样本数量来平衡数据集。最简单的欠采样方法是随机地删除多数类别的样本。然而，这种方法可能会丢失一些重要的信息。因此，一些更高级的欠采样方法被提出，如NearMiss和ClusterCentroids等，它们通过保留具有代表性的多数类别样本来减少样本数量。

使用imbalanced-learn库中的RandomUnderSampler方法进行欠采样：

from imblearn.under_sampling import RandomUnderSampler

X_resampled, y_resampled = RandomUnderSampler().fit_resample(X, y)

使用imbalanced-learn库中的NearMiss方法进行近邻欠采样：

from imblearn.under_sampling import NearMiss

X_resampled, y_resampled = NearMiss().fit_resample(X, y)

（3）混合采样（Combination Sampling）：混合采样方法是过采样和欠采样的结合。它同时对多数和少数类别进行处理，以达到数据集平衡的效果。其中一种常见的混合

混采样方法是SMOTEENN（SMOTE + Edited Nearest Neighbors）方法。它首先使用SMOTE方法对少数类别进行过采样，生成一些合成样本。然后，使用Edited Nearest Neighbors（ENN）方法对多数类别进行欠采样，删除一些样本。通过这种方式，混合采样方法能够克服简单过采样和欠采样方法的一些问题，同时平衡数据集。

使用imbalanced-learn库中的SMOTEENN方法进行SMOTE + Edited Nearest Neighbors采样：

from imblearn.combine import SMOTEENN

X_resampled, y_resampled = SMOTEENN().fit_resample(X, y)

（4）加权重采样（Weighted Resampling）：加权重采样方法通过为不同类别的样本赋予不同的权重来平衡数据集。它可以用于训练模型时调整样本的重要性。常见的加权重采样方法包括基于频率的加权和基于错误率的加权。基于频率的加权根据每个类别的样本数量设置权重，使得样本数量少的类别具有更高的权重。基于错误率的加权根据每个类别的错误率来调整权重，使得错误率高的类别具有更高的权重。

import torch

from torch.utils.data import DataLoader, WeightedRandomSampler

# 假设有一个不均衡的数据集，包含10个样本和对应的类别标签

data = [

([1, 2, 3], 0),

([4, 5, 6], 1),

([7, 8, 9], 1),

([10, 11, 12], 0),

([13, 14, 15], 1),

([16, 17, 18], 0),

([19, 20, 21], 1),

([22, 23, 24], 0),