历史上的今天
返回首页

历史上的今天

今天是:2025年03月27日(星期四)

正在发生

2019年03月27日 | 当机器学习中遇到类不平衡,该怎么办?

2019-03-27 来源: 靡荼

类失衡:假设您有一个罕见的疾病数据集,即大约8%的阳性。在这种情况下,即使你不训练,只是简单地说没有生病,这也会给出92%的准确率。因此,在类不平衡的情况下,准确性是不准确的。

在本指南中,我们介绍了处理机器学习中不平衡类的5种策略:

对少数类进行上采样

对多数类进行下采样

更改性能指标

惩罚算法

使用基于树的算法

1. 上采样少数类:指随机复制少数类的观察结果,使样本数量与多数类匹配。

首先,我们将每个类的观察结果分成不同的DataFrame。

接下来,我们将使用替换重取样少数类,设置样本数以匹配多数类的样本数。

最后,我们将上采样的少数类DataFrame与原始的多数类DataFrame相结合。

创建样本(数据增强)

创建合成样本是上采样的近亲,有些人可能会将它们归类在一起。例如,SMOTE算法是一种从少数类中重新采样的方法,同时稍微调整特征值,从而创建“新的”样本。

2. 下采样多数类:下采样涉及从多数类中随机移除观测值,以防止其信号支配学习算法。

首先,我们将每个类的观察结果分成不同的DataFrame。

接下来,我们将重采样多数类而不进行替换,将样本数设置为与少数类相匹配。

最后,我们将下采样的多数类DataFrame与原始的少数类DataFrame结合起来。

3. 更改性能指标:AUROC(ROC曲线下面积)

假设我们有一个概率的二元分类器,如逻辑回归。

在呈现ROC曲线之前,必须理解混淆矩阵的概念。当我们进行二元预测时,可以有4种类型的结果:

我们预测0而真正的类实际上是0:这被称为真阴性,即我们正确地预测该类是负的(0)。例如,防病毒未将无害文件检测为病毒。

我们预测0而真正的类实际上是1:这被称为假阴性,即我们错误地预测该类是负的(0)。例如,防病毒软件无法检测到病毒。

我们预测1而真正的类实际上是0:这被称为假阳性,即我们错误地预测该类是正的(1)。例如,防病毒软件认为无害文件是病毒。

我们预测1而真正的类实际上是1:这被称为真阳性,即我们正确地预测该类是正的(1)。例如,防病毒软件正确地检测到了病毒。

为了获得混淆矩阵,我们回顾机器学习项模型所做的所有预测,并计算这4种结果中的每一种发生的次数:

在这个混淆矩阵的例子中,在被分类的50个数据点中,45个被正确分类,5个被错误分类。

由于为了比较不同的模型,通常使用单个度量比使用多个度量更方便,所以我们从混淆矩阵中计算两个度量,然后将其合并为一个:

真阳性率(TPR),又名灵敏度、命中率和召回率,定义为+TPTP+ FN。直观地,该度量对应于相对于所有正数据点被正确认为为正的正数据点的比例。换句话说,TPR越高,我们将错过的正数据点越少。

假阳性率(FPR),又名 fall-out,定义为+FPFP+ TN。直观地,该度量对应于相对于所有负数据点被错误地认为是正数的负数据点的比例。换句话说,FPR越高,更多的负数据点将被错误分类。

为了将FPR和TPR合并为一个度量,我们首先计算逻辑回归中具有许多不同阈值的前两个度量(例如0.00、0.01、0.02、……、1.000.00;0.01、0.02、……、1.00),然后将它们绘制在一个图上,横坐标上是FPR值,纵坐标上是TPR值。得到的曲线称为ROC曲线,我们考虑的度量是这条曲线的AUC,我们称之为AUROC。

下图以图形方式显示AUROC:

在该图中,蓝色区域对应于AUROC的曲线下面积。对角线中的虚线表示随机预测器的ROC曲线:它的AUROC为0.5。

AUROC介于0和1之间,AUROC = 1意味着预测模型是完美的。事实上,AUROC距离0.5越远越好:如果AUROC <0.5,那么你只需要反转模型所做的决定。因此,如果AUROC = 0,这是个好消息,因为您只需要反转模型的输出以获得完美的机器学习模型。

4. 惩罚算法:

下一个策略是使用惩罚学习算法,提高少数类的分类错误的成本。

该技术的流行算法是Penalized-SVM:支持向量机

在训练期间,我们可以使用参数class_weight ='balanced'来惩罚少数群体类的错误,其数量与其代表性不足的数量成正比。

如果我们想为支持向量机算法启用概率估计,还需要包含参数probability=True。

让我们在原始不平衡数据集上使用Penalized-SVM训练模型:

5. 使用基于树的算法

我们将考虑的最后策略是使用基于树的算法。决策树通常在不平衡数据集上表现良好,因为它们的层次结构允许它们从两个类中学习信号。

在现代应用机器学习中,树集合(随机森林,梯度提升树等)几乎总是优于单一决策树:

97%的准确率和接近100%的AUROC。

树形组合已经变得非常流行,因为它们在许多现实问题上表现得非常好。

然而:虽然这些结果令人鼓舞,但机器学习模型可能过度拟合,因此在做出最终决策之前,您仍应在集上评估机器学习模型。

推荐阅读

史海拾趣

Alpha-Micro Electronics公司的发展小趣事

Alpha-Micro Electronics是一家提供嵌入式系统解决方案的公司,专注于设计和制造微控制器、传感器和其他嵌入式设备。以下是关于Alpha-Micro Electronics公司发展的五个相关故事:

  1. 公司成立:Alpha-Micro Electronics公司成立于1982年,总部位于德国斯图加特。公司的创始人是一群电子工程师,他们致力于为各种应用领域提供高性能的嵌入式系统解决方案。

  2. 技术创新:在公司创立之初,Alpha-Micro Electronics就开始致力于技术创新。他们不断投资于研发,推出了一系列先进的微控制器和传感器产品,以满足客户对功能强大和性能稳定的需求。

  3. 解决方案定制:Alpha-Micro Electronics公司注重与客户的紧密合作,提供定制化的解决方案。他们的工程团队具有丰富的经验和专业知识,能够根据客户的具体要求设计和制造符合其需求的嵌入式系统。

  4. 国际扩展:随着业务的不断发展,Alpha-Micro Electronics逐渐拓展了国际市场。除了在德国的总部和研发中心外,公司还在全球范围内建立了销售和服务网络,包括在美国、亚洲和欧洲的分支机构和合作伙伴。

  5. 行业合作与创新:Alpha-Micro Electronics公司积极参与行业合作和创新项目,与其他企业、研究机构和学术界合作,共同推动嵌入式技术的发展。通过与行业领先者合作,公司不断探索新的技术和应用领域,为客户提供更具竞争力的解决方案。

这些故事展示了Alpha-Micro Electronics公司在技术创新、解决方案定制、国际扩展和行业合作方面的发展历程,以及其在电子行业中的重要地位和影响力。

Davico Industrial Ltd公司的发展小趣事

Davico Industrial Ltd公司发展故事一:技术突破与创新

Davico Industrial Ltd公司自创立以来,始终将技术创新作为企业发展的核心动力。在公司成立初期,面对电子行业竞争激烈的局面,Davico凭借对市场的敏锐洞察和对技术的不断追求,成功研发出了一款具有划时代意义的电子元器件。这款产品以其高性能、低能耗的特点,迅速在市场中占据了一席之地。此后,Davico不断加大对研发的投入,通过引进高端人才、建立先进的研发实验室等举措,持续推出了一系列具有竞争力的新产品,为公司的发展奠定了坚实的基础。

Davico Industrial Ltd公司发展故事二:市场拓展与品牌建设

随着技术实力的不断增强,Davico开始积极拓展国内外市场。公司通过与国内外知名企业的合作,不断提升产品的知名度和美誉度。同时,Davico还积极参与各类行业展会和论坛,展示公司的最新成果和技术实力,赢得了广大客户的认可和信赖。在品牌建设方面,Davico注重塑造企业形象和文化内涵,通过广告宣传、公益活动等方式,提高了品牌的社会影响力和知名度。

Davico Industrial Ltd公司发展故事三:质量管理与持续改进

Davico深知产品质量对于企业生存和发展的重要性。因此,公司始终将质量管理放在首位,建立了完善的质量管理体系和检测手段。通过对生产过程的严格控制和对产品质量的不断追求,Davico的产品在市场中赢得了良好的口碑。同时,公司还积极开展持续改进活动,通过引进先进的生产设备和工艺、优化生产流程等措施,不断提高生产效率和产品质量。

Davico Industrial Ltd公司发展故事四:人才战略与团队建设

Davico高度重视人才队伍建设,通过制定合理的人才战略和激励机制,吸引了一批批优秀的人才加入公司。公司注重员工的培训和发展,通过定期的技能培训、知识更新等活动,不断提升员工的综合素质和专业技能。同时,Davico还建立了完善的团队协作机制,鼓励员工之间的沟通和合作,形成了一支高效、团结、富有战斗力的团队。

Davico Industrial Ltd公司发展故事五:绿色发展与社会责任

随着全球环保意识的不断提高,Davico积极响应国家绿色发展的号召,将环保理念融入到企业的生产经营中。公司通过引进环保设备、改进生产工艺等措施,降低了生产过程中的能耗和污染排放。同时,Davico还积极参与社会公益事业,通过捐款捐物、扶贫济困等方式,回馈社会、造福人民。这些举措不仅提升了企业的社会形象,也为公司的长远发展注入了新的动力。

芯朋微电子(chipown)公司的发展小趣事

随着公司业务的不断发展,芯朋微电子开始布局国际市场。公司积极寻求与国际知名企业的合作,引进先进技术和管理经验,提升自身竞争力。同时,公司也加强了对海外市场的研究和拓展,努力将产品推向全球市场。

FSP [FSP TECHNOLOGY INC.]公司的发展小趣事

2020年7月22日,芯朋微电子在上交所科创板成功挂牌上市,这一里程碑事件标志着公司进入了全新的发展阶段。上市后,公司凭借资本市场的支持,加速了产品研发和市场拓展,品牌影响力得到进一步提升。

苏州锋驰(Feng)公司的发展小趣事
能够保护负载器件免受电流过载和短路等问题的影响。
Crystal Semiconductor Corp公司的发展小趣事

Crystal Semiconductor Corp成立之初,面临着资金短缺、技术难题和市场竞争的多重压力。然而,公司的创始人凭借对半导体技术的深刻理解和敏锐的市场洞察力,成功吸引了一批志同道合的工程师和投资者。他们共同攻克了技术难关,推出了首款具有竞争力的晶体管产品,迅速在市场上占据了一席之地。

问答坊 | AI 解惑

电容漏泄的测量

电容器是几乎所有电气设备上都会用到的主要器件。漏阻是电容器被测试的众多电气特征中的一个。漏阻通常被称为“IR”(Insulation Resistance,绝缘电阻),以“兆欧-微法”表示。在其它情况下,漏泄可能被表示为特定电压(通常为工作电压)下的漏 ...…

查看全部问答>

请教代替3sk318的双栅管

本帖最后由 jameswangsynnex 于 2015-3-3 19:56 编辑 请教各位高手,什么型号的双栅管可以代替3SK318(能直接替换最好) 谢谢! …

查看全部问答>

电动车跷跷板【F题,二等奖】

本帖最后由 paulhyde 于 2014-9-15 09:04 编辑 电动车跷跷板~~~~~~~~  …

查看全部问答>

2440 读 温度芯片,总是无法触发中断,请教有什么方法呀?

BSP包里通过应用层调用IIC文件夹不能正常工作,只好转入到bootloader层去做温度检测了,可是无论如何也不能触发中断,有经验的请指教,先谢谢了。…

查看全部问答>

谁有基于单片机数字电流表的设计报告?

只要电路原理图和c源程序。小弟在这拜谢了! 或者谁能帮我改下这电压表的程序成电流表的程序: #include    unsigned char code dispbitcode[]={0xfe,0xfd,0xfb,0xf7,             &nbs ...…

查看全部问答>

Pci 网卡驱动

现在要开始搞pci网卡驱动想从Realtek 8139这个入手, 个位有甚么好的建议 linux device driver有個pci_skel框架, 不知道怎麼楊. …

查看全部问答>

深入浅出玩转 FPGA 特权同学的 书

深入浅出玩转 FPGA  特权同学的 书   大家东清楚,不用我介绍了吧!…

查看全部问答>

【号外】STM32F101也有USB

刚做的东西给几个小MM去贴片,把101当103贴上去了,居然USB也可以联机。但操作偶尔有问题,手工复位一般可以解决掉。听小道消息说,101是阉割的103,就像奔腾的cache有瑕疵变成赛扬一样。…

查看全部问答>

分享-最好用的串口终端

Bray++同志写的,俺用了好多年。这是最新版。 Terminal.rar (278.15 KB) 下载次数:190 2010-10-13 20:16 …

查看全部问答>

请教,这个I/O子程序是什么意思?

使能I/O口子程序,在CCS帮助文件中看到对该子程序 GPIO_Handle GPIO_open(   int chaNum,   Uint32 flags ); 的解释是: chaNum        GPIO channel to open: lags     & ...…

查看全部问答>