历史上的今天
返回首页

历史上的今天

今天是:2025年05月07日(星期三)

正在发生

2018年05月07日 | 机器学习必须避开的九大陷阱

2018-05-07 来源:网络整理

从事IT领域工作二十年以来,我发现人工智能技术逐步从概念转向实际——技术位于前沿,并且变得更易于使用,即使对于没有专业知识的团队也是如此。

随着越来越多的团队使用预测模型,领导者和管理者必须意识到可能会团队工作结果的常见问题。为了实现可靠的机器学习过程,以下是要避免的九个常见陷阱,以及可采用的最佳实践方法。

陷阱1:抽样偏差

任何机器学习项目的起点都是选择训练数据。通常,组织机构有一些可用的数据,或者可以识别相关的外部供应商,例如国营企业或行业协会。这是问题开始的地方。

建模团队及其业务赞助商必须定义要使用的数据集。选择一个会歪曲或低估实际案例的数据集会很容易引起偏差,这会扭曲结果。例如,一个访问只选择在特定位置行走的人群,但却将他们当作健康人群的过度代表。

解决方案:为避免采样偏差,团队必须保证他们是真正地随机选择数据,而不是仅仅因为使用简单就使用特定案例。对于指导有效的数据选择而言,理想数据集的清晰定义和模型的逻辑至关重要。通过在早期阶段与企业所有者合作,让几位评审人员验证选择标准,机器学习团队可以确保他们的数据采样方法有用并可靠。

陷阱2:不相关的功能选择

在许多情况下,由于变量选择的细微差别,建模师遇见了许多困难。许多技术需要大量功能集来推动学习过程。但是,为了收集足够的学习数据,确保您获取了正确且相关的功能可能非常具有挑战性。

解决方案:构建一个性能良好的模型的过程需要仔细的探索和分析,以确保您选择和设计适当的功能。了解领域和包含主题专家,是选择正确功能最重要的两个驱动因素。此外,诸如递归特征消除(recuive feature elinaon,E),随机森林(random forest),主成分分析(principal component analysis,PCA)和自动等技术有助于将建模工作集中在少数几个更有效的功能上。

陷阱3:数据泄露

机器学习团队可能会偶然地收集建模数据,使用的标准是团队试图预测结果的一部分,因此,模型会显示出优秀到失真的性能。例如,一个团队可能错误的包含了一个在旨在预测疾病的模型中指示某些疾病治疗的变量。

解决方案:建模团队必须仔细构建他们的数据集,在模型估计结果之前仅使用训练时实际可用的数据。

陷阱4:缺少数据

在某些情况下,由于缺少某些记录,数据集会变得不完整。错误地调整该条件或假设没有缺失值,建模师可能会对结果的认知产生重大偏差。例如,缺失的数据可能并不总是随机的,例如,当调查受访者不太可能回答某个特定问题时。因此,平均估算可能会误导模型。

解决方案:如果您无法设计培训计划以确保使用完整的数据集,则可以采用统计技术,包括丢弃缺失值的记录,或使用适当的插补策略来估算缺失的数据值。

陷阱5:不准确的缩放和标准化

构建用于机器学习工作的数据集通常需要团队收集不同类型的输入端,这些输入端有着不同的衡量尺度。在建立模型之前,如果未能调整变量的值以允许通用比例,线性回归( regression),支持向量机(support vector machine,SVN),或k近邻(k nearest neighbors,KNN)等算法会受到很大影响。这些问题的出现在于范围大的话会导致功能的高度变化,因此,它们可能变得多余。例如,如果您将两者都当作未处理的投入使用,那么薪水的数据可能会获得比年龄更重的权重。

解决方案:在开始建立模型之前,您必须小心地对数据集进行标准化。您可以通过常用统计技术(如标准化或功能缩放)来转换数据集,这取决于数据的类型和团队的首选算法。

陷阱6:忽略异常值

忘记异常值可能会对模型的性能产生重大影响。例如,像aBoost这样的算法会将异常值视为困难情况,并将不适当的权重放在适当的位置上,而决策树更宽容。此外,不同的用例需要不同的离群值处理。例如,在发现欺诈行为的情况下,应重点关注存款中异常值。

解决方案:要解决此类问题,您的团队应该使用建模算法,它能够正确处理异常值,或者在建模前过滤异常值。良好的开端在于让您的团队做一个初步检查,以确定数据中是否存在异常值。最简单的方法是审查数据的图标或检查任何数值,它们可能是几个标准差,或更远离平均值的数值。

陷阱7:计算错误功能

当一个团队为建模提供投入时,微分过程中的任何错误都可能会为模型带来误导性输入。毫无例外,无论团队如何构建,模型都出乎意料地产生了不可靠的结果。这个问题的一个例子是,一个团队弱化了一个依赖于计算的利用率的信用评分预测模型,因为这个团队包括来自信用报告的不活跃贸易信息。

解决方案:建模师必须仔细检查团队如何获取数据。关键的出发点是要了解哪些功能是原始格式,哪些是经过设计的。自此,建模师就可以在进行建模之前检查衍生功能的假设和计算。

陷阱8:忽略多线投入(mulTI-collinear inputs)

使用数据集而不考虑多重共线性预测因子(mulTI-collinear predictors)是误导模型建构的另一种方式(多线性输入的存在意味着两个或多个变量之间存在着很高的相关性)。结果使其很难识别任何一个变量的影响。在这种情况下,选定功能的微小变化会对结果产生重大影响。这个问题的一个例子是,广告预算和流量作为预测变量呈现共线性。

解决方案:检测多重共线性的简单方法是计算所有变量对应的相关系数。之后您就有诸多选择来解决任何确定的共线性问题,如建筑构图或删除冗余变量。

陷阱9:无效绩效K

当建模数据各种进程进入平衡状态时,大多数建模算法表现最好。当数据显示不平衡时,衡量模型性能的正确指标变的至关重要。例如,平均违约率为1.2%。一个模型的准确度能达到98%,预测在所有情况下都不会发生变化。

解决方案:除非可以选择生成更均衡的训练集,或使用基于成本的学习算法,选择业务驱动的绩效指标是最好的解决方案。对于超出准确度的模型的绩效有着各种措施,如精确度,召回率,F1得分和受试者工作特征(receiver operaTIng characteristic,ROC)曲线。选择最合适的度量标准将指导建模算法错误最小化。

从坚实的基础开始

由于技术和的进步,机器学习培训项目比以往更容易执行。但是,要获得可靠的结果需要对数据科学和统计学原理有深入的了解,如此才能确保团队从一个坚不可摧的底据集开始,这边是成功的基础。

推荐阅读

史海拾趣

泰科天润(GPT)公司的发展小趣事

机顶盒,全称数字视频变换盒,是连接电视与外部信号源的重要设备,其专业性与科普性均不容忽视。从广义上讲,任何与电视机连接的网络终端设备均可视为机顶盒,它们承担着将各种信号源转换为电视可识别并播放的格式的重要任务。

机顶盒的核心功能在于接收、解码和显示。它能接收来自有线电缆、卫星天线、宽带网络及地面广播等多种传输介质的数字电视信号,并通过内置的解调器和解码器,将这些信号转换为电视能够播放的视频和音频流。这一过程中,机顶盒展现了其强大的技术实力,确保用户能够享受到高质量的视听体验。

随着技术的发展,机顶盒不断进化。从最初的模拟频道增补器、解码器,到如今支持高清、4K乃至8K超高清播放的智能网络机顶盒,机顶盒的每一次升级都带来了更加丰富的内容选择和更加便捷的使用体验。同时,网络机顶盒的出现更是将电视与互联网紧密相连,使得用户能够通过电视屏幕浏览网页、观看在线视频、下载应用程序、享受交互式娱乐等多元化服务。

此外,机顶盒还具备强大的扩展性和可定制性。通过搭载不同的软件和硬件设备,机顶盒可以满足不同用户的个性化需求,如家庭影院功能、社交媒体互动、语音控制等。这些功能的加入不仅提升了机顶盒的实用性,也使其成为了现代家庭娱乐的重要组成部分。

综上所述,机顶盒作为连接电视与外部世界的桥梁,其专业性与科普性在不断提升中。随着技术的不断进步和市场的不断扩大,机顶盒将继续为用户带来更加优质、便捷、智能的视听体验。

Alliance Memory公司的发展小趣事

Alliance Memory是一家专注于存储器产品的公司,以下是其发展历程的五个相关故事:

  1. 成立与发展初期: Alliance Memory成立于2006年,总部位于美国南卡罗来纳州。公司专注于提供DRAM(动态随机存取存储器)和SRAM(静态随机存取存储器)解决方案。在成立之初,公司致力于与全球供应链建立紧密的合作关系,以确保产品的质量和可靠性。通过与先进制造厂商合作,Alliance Memory能够提供高品质的存储器产品,满足客户的需求。

  2. 扩大产品线: 随着市场需求的增长,Alliance Memory不断扩大其产品线,涵盖各种容量和类型的DRAM和SRAM产品。公司不断改进和优化其制造工艺,并与全球领先的技术合作伙伴密切合作,以确保产品的性能和稳定性。通过不断提供新的存储器解决方案,Alliance Memory成功吸引了更多的客户,并在行业中树立了良好的声誉。

  3. 全球市场拓展: Alliance Memory的产品销售遍布全球各个地区,包括美国、欧洲、亚洲等市场。公司与全球各地的分销商和代理商建立了稳固的合作关系,以扩大其产品的市场份额。通过在全球范围内提供及时和高效的客户服务,Alliance Memory不断增强了其在国际市场上的竞争力。

  4. 技术创新与研发投入: 作为一家技术驱动型公司,Alliance Memory不断投入研发和创新,以提供最先进的存储器产品。公司的研发团队与业界领先的技术合作伙伴密切合作,不断推出具有竞争优势的新产品。通过持续的技术创新,Alliance Memory得以不断满足客户不断增长的需求,并保持在行业中的领先地位。

  5. 可持续发展与社会责任: 除了致力于业务发展,Alliance Memory还积极履行企业社会责任,关注环境保护和社会公益事业。公司采取了一系列可持续发展的举措,包括节能减排、资源循环利用等,努力降低对环境的影响。此外,Alliance Memory还参与各种公益活动,支持教育、环保和社区发展等领域的项目,为社会做出积极贡献。

APM Hexseal公司的发展小趣事

APM Hexseal的产品很快在军事领域获得了广泛应用。公司的密封靴子通过了严格的军事检查和独立的QPL等效项,证明了其卓越的性能和可靠性。此外,APM Hexseal还协助开发了MIL-B-5423规范(现为MIL-DTL-5423),为军方的新设备保护要求设定了初始标准。这一合作不仅提升了APM Hexseal在军事领域的影响力,也为其在电子行业中的发展打开了新的大门。

东科半导体(DK)公司的发展小趣事

东科半导体(DK)公司一直将技术创新作为发展的核心驱动力。公司投入大量资金和资源用于研发,先后开发出AC/DC、同步整流、第三代半导体氮化镓芯片等先进技术。其中,东科半导体的同步整流芯片研发成功,其独特的两引脚封装技术为全球首创,为公司赢得了行业内的独家竞争优势。这一技术的成功应用,不仅提升了公司产品的性能,也进一步巩固了东科在电源管理芯片市场的领先地位。

CHINFA公司的发展小趣事

在电子产品市场,品质是企业生存和发展的关键。CHINFA公司始终坚持品质至上的生产理念,从原材料采购到生产流程控制,再到产品检验和售后服务,都严格把关。公司引进了先进的生产设备和技术,建立了完善的质量管理体系,确保每一件产品都符合高标准的质量要求。这种对品质的执着追求,使CHINFA公司的产品在市场上赢得了良好的口碑。

Bridgelux公司的发展小趣事

XXXX年,中国电子信息产业集团公司(CEC)和重庆临空开发投资公司牵头收购了Bridgelux。这次收购为Bridgelux带来了强大的资本支持和市场资源,使其得以进一步扩大生产规模,提升研发能力。在CEC和重庆临空的支持下,Bridgelux在全球范围内的市场份额逐步提升,品牌影响力不断增强。

问答坊 | AI 解惑

智林测控开发板.强烈推荐

这是个ARM最小系统开发板,大家可以上淘宝买一个玩,不到50元的成本, [ 本帖最后由 jxb01033016 于 2009-9-17 11:57 编辑 ]…

查看全部问答>

createdialog没有wm_command消息

从同一个模板创建dialog,用dialogbox创建,一切正常。而用createdialog创建,callback里只有WM_INITDIALOG,没有WM_COMMAND,也就不能对button控件进行任何操作了。由于设备不能连接电脑,也看不见消息队列。…

查看全部问答>

一个DMA的问题,高手进来看一下,谢了

现有一块开发板,上面有一个FPGA,FPGA中有一个FIFO,现在采用DMA把FIFO中的数据传输到内存中。现用工具是DS。假如FIFO为1K大小,我现在有2.6K的数据陆续传到FIFO中,然后DMA到物理内存中。 开发板提供了一段代码,在StartDMA例程中有这两句:m_Io ...…

查看全部问答>

EVC和VC2005开发的比较

EVC和VC2005开发智能设备的程序,相互比较各自有什么优点和缺点?谢谢大家了…

查看全部问答>

竞赛必须用到的模块制作指导

本帖最后由 paulhyde 于 2014-9-15 03:43 编辑 就是你想要!!!  …

查看全部问答>

给大家转发个MSP430 JTAG(USB的和并口的)与目标板连接需要注意的几点总结

经常看到有初学MSP430的朋友在坛里询问MSP430 JTAG与目标板连接方面的问题,我在这里给大家总结一下,希望能给初学MSP430的朋友拨云见日,不再疑惑。 MSP430的JTAG连接主要有两种方式:4线JTAG方式(包含TDO、TDI、TMS、TCK四路标准JTAG ...…

查看全部问答>

继电器应用专利

有没有大神知道或者了解这样一个继电器的专利。一种一个线圈带2组常开触点的继电器应用在3相交流系统的专利…

查看全部问答>

通用仿真卡CNIC-A2PX

求真相,这是个什么东东啊…

查看全部问答>

用FPGA实现高精度时间间隔测量

大家好,我想问一下,大家是否用FPGA做过高精度的时间测量,时间间隔是0.1ns的,或者是10ps的。 我看文献中显示有人在2000年左右就用FPGA实现了100ps分辨率的高精度时间间隔采集, 但是我给xilinx的技术人员打电话询问,他们说单从硬件上来说是无 ...…

查看全部问答>

求助:msp系列芯片源代码可以通用么?

MSP不同型号之间芯片的代码都无法移植么,要移植的话要修改什么? …

查看全部问答>