历史上的今天
返回首页

历史上的今天

今天是:2025年03月26日(星期三)

正在发生

2018年03月26日 | 切莫陷入机器学习的这9个误区

2018-03-26 来源:至顶网

机器学习已经被证明是很有用的,但也容易被假设可以解决所有问题、适用于所有情况。和其他工具一样,机器学习在特定领域很有用处,特别是那些你一直都知道有、但永远无法雇佣足够的人来解决的问题;或者是那些有明确目标、但没有明确实现方法的问题。

尽管如此,每个企业组织都可以以某种方式利用机器学习,在埃森哲最近的一项调查中,有42%的高管表示,他们预计到2021年我们几乎所有创新项目背后都有人工智能的支持。但是,如果除去炒作的话你能得到更好的结果,通过了解机器学习能做什么、不能做什么,避免常见的误区。

误区1:机器学习就是人工智能

机器学习和人工智能经常当作是同义词,机器学习是从研究实验室走出现实世界最成功的一项技术,而人工智能则是一个广泛的领域,覆盖了计算机视觉、机器人和自然语言处理等领域,以及不包含机器学习的约束满足等方法。可以把人工智能看到一切能让机器变聪明的方法。所有这些都不是一些人担心会与人类竞争甚至是攻击人类的那种“人工智能”。

你要谨慎看待各种流行词汇,尽量做到精准。机器学习是关于学习模式和预测大数据集的结果;其结果可能看起来很“聪明”,但核心是以前所未有的速度和规模运用统计学。

误区2:所有数据都是有用的

要做机器学习的话就需要数据,但并非所有数据都可用于机器学习。为了训练系统,你需要有代表性的数据,以涵盖机器学习系统需要处理的模式和结果。你所需的数据不应该包含那些不相关的模式(例如照片显示所有站立起来的男士和所有坐着的女士,或者所有车辆都在车库中,所有自行车都在泥泞的场地中),因为你创建的机器学习模型将反映那些过于具体的模式,在你使用的数据中心查找这些模式。所有用于训练的数据都需要贴上标签,并且标记上那些与你向机器学习系统提问相匹配的特征,这就需要大量的工作。

不要假设你已经拥有干净的、清晰的、具有代表性或易于标记的数据。

误区3:你总是需要大量的数据

最近在图像识别、机器阅读理解、语言翻译和其他领域所取得的重大进展,主要是因为现在我们有了更好的工具、能够并行处理大量数据的GPU等计算硬件、以及已经标记的大型数据集,包括ImageNet和Stanford Question Answering Datase。但是,因为有一种名为转移学习的技巧,所以你并不总是需要大量数据才能在特定领域获得良好结果;相反,你可以训练机器学习系统如何使用一个大型数据集进行学习,然后将其转移到你自己的小型训练数据集中去。这就是Salesforce和Microsoft Azure的自定义视觉API的工作原理:你只需要30-50张图像即可显示想要分类的内容以获得好的结果。

转移学习让你使用相对较少的数据就可以为你的问题定制预先训练好的系统。

误区4:任何人都可以建立一个机器学习系统

有很多用于机器学习的开源工具和框架,以及无数课程向教你如何使用机器学习。但机器学习仍然是一项专有技术;你需要知道如何准备数据并对其进行分区、训练和测试,你需要知道如何选择最佳算法以及使用何种启发式算法,如何将其转化为可靠的生产系统。你还需要监控系统以确保随时间推移结果保持相关性;无论你所在市场的变化,还是你的机器学习系统足够好,最终你都会遇到不同的客户群,你需要持续检查该模型是否与你的问题相一致。

正确利用机器学习需要经验;如果你刚刚起步的时候,可以借助API预先训练可以从代码中调用的模型,同时聘用数据科学专家和机器学习专家来构建自定义系统。

误区5:数据中所有模式都是有用的

哮喘患者、胸痛或心脏病患者、任何100岁以上老人的肺炎存活率远高于预期。不错,实际上,一套简单的、设计可自动发送住院通知的机器学习系统可能会通知他们回家(一种基于规则的系统,用相同的数据进行训练,就像神经网络那样)。之所以存活率这么高,是因为肺炎非常危险,患者会被立即送到医院住院。

这个系统从数据中看到了一个有效的模式;这对于选择谁需要住院来说并不是一种有用的模式(但是它可以帮助保险公司来预测治疗费用)。更危险的是,你并不知道你的数据集中有这种无用的反数据集,除非你已经知道它的存在。

在其他情况下,一个系统可以学习一种有效的模式(比如一种有争议的面部识别系统,可以从自拍中准确预测性取向),因为它没有清晰而明显的解释,所以是无用的(在这种情况下,照片会显示出一些社交线索,例如拍照姿势,而不是显示天生的某些特征)。

“黑匣子”模型是有效的,但没有说清楚它们到底学到了什么模式。像通用附加模型这样的则更透明一些,可理解的算法可以让我们更清楚模型的学习内容,从而可以决定是否适合部署。

误区6:随时可以使用增强学习

如今几乎所有在使用中的机器学习系统都采用了监督式学习;在大多数情况下,系统是基于明确标记的数据集进行训练,在准备这些数据集的过程中人类也参与其中。组织这些数据集需要时间和精力,所以人们对非监督形式的学习、特别是强化学习(RL)有很大的兴趣——强化学习是指学习者通过反复试错,通过与环境交互、预测正确行为得到奖励。DeepMind的AlphaGo系统结合使用增强学习与监督式学习,击败高级Go玩家,而由卡内基梅隆大学团队打造的Libratus系统结增强学习和其他两种人工智能技术,在“无限注德州扑克”中击败了全球顶尖德扑选手。研究人员正在试验将增强学习用于方方面面,从机器人到测试安全软件。

但是在实验室之外,增强学习并不常见。谷歌DeepMind通过学习如何更有效地进行冷却,来降低数据中心的功耗;微软采用了一个名为下文赌博机(Contextual Bandit)的特定且有限的增强学习版本,MSN.com的访问者显示个性化新闻标题。问题在于很少有现实世界的环境具有可以轻松发现的奖励和即时反馈,特别是代理在任何事情发生前采取多项措施的时候。

误区7:机器学习不存在偏见

因为机器学习是从数据中进行学习的,所以它会复制数据集中的任何偏见。搜索CEO的图像,结果可能会显示白人男性CEO的照片,因为更多的首席执行官是白人男性。但事实证明,机器学习也会放大偏见。

经常用于训练图像识别系统的COCO数据集有男性和女性的照片;但其中更多的女性形象是出现在厨房家电旁边的,更多的男性形象是和电脑键盘、鼠标或网球拍和滑雪板一起出现的。在COCO上训练系统,它会把男性与计算机硬件更紧密地绑定在一起。

一个机器学习系统也可能给另一个机器学习系统施加偏见。用流行的框架来培训一个机器学习系统,用单词来表达它们之间关系的向量,学习像“男人相对与女人就像是计算机程序员相对与家庭主妇”,或者“医生相对于护士就像是老板相对于接待员”这样的刻板印象。如果你使用这个系统,系统会把he和she(英语)翻译成具有性别中性代词的语言(如芬兰语或土耳其语),“他们是医生”变成“他是医生”,“他们是护士”变成“她是护士”。

如果是在购物网站上得到类似的建议是有用的,但在涉及敏感林能够与时就会引发问题,并且会产生反馈回路;如果你加入Facebook反对接种疫苗的组织,Facebook的推荐引擎会推荐其他关注阴谋论或者认为地球是平坦的组织。

了解机器学习中的偏见问题很重要。如果你无法消除训练数据集中的偏差,可以使用一些技巧,例如在词对之间规则化性别关联,来减少偏见或将不相关的条目添加到建议中,以避免“过滤泡沫”。

误区8:利用机器学习都是好的一面

机器学习为防病毒工具提供了强大的功能,进一步着眼于全新攻击的行为,以便尽快发现这些行为。但同样,黑客也在利用机器学习研究防病毒工具的防御措施,通过分析大量公共数据或以前成功的网络钓鱼事件,大规模地发起有针对性的网络钓鱼攻击。

误区9:机器学习将取代人类

人们常常担心人工智能会抢了人类的工作,而且肯定会改变我们的工作方式;机器学习系统可以提高效率和合规性并降低成本。从长远来看,人工智能将在业务中创造新的角色,并使淘汰掉当前的一些职位。但是许多机器学习实现了自动化的任务在之前是不可想象的,无论是复杂性还是规模,例如,您无法聘请足够的人员来查看发布到社交媒体的每张图片,以查看这些图片中是否含有你企业的品牌特征。

现在机器学习已经开始创造了一些新的业务机会,例如通过预测性维护改善客户体验,并向业务决策者提供建议和支持。和前几代的自动化一样,机器学习可以让员工自由使用他们的专业知识和创造力。

推荐阅读

史海拾趣

BURGESS公司的发展小趣事

BURGESS公司于1975年3月13日在伦敦正式成立,这标志着它在游艇经纪行业的起点。创立之初,BURGESS就凭借其专业的知识和敏锐的市场洞察力,在短短四年内成功进驻摩纳哥这一游艇行业的重镇。更令人瞩目的是,在同一年,BURGESS成功售出了当时世界上最大的游艇,这一成就不仅彰显了其卓越的实力,也为其在行业内赢得了极高的声誉。

台湾富致(FUZETEC)公司的发展小趣事

Futaba Electric最初起源于收音机收讯真空管的制造,但在1970年,公司做出了重大的战略调整,决定结束真空管业务,专注于萤光表示管(VFD)的生产。这一决策标志着公司从传统电子元件向高级显示技术的转型。随着VFD技术的不断发展,Futaba凭借其在清晰度、视角和亮度方面的卓越表现,逐渐在全球VFD市场中占据领先地位,目前市场份额超过60%。这一转型不仅使Futaba成为VFD技术的领导者,还为其在汽车仪表盘和抬头显示器等领域的广泛应用奠定了基础。

Alliance Memory公司的发展小趣事

为了更好地服务于中国市场,Futaba在2002年成立了双叶电子科技开发(北京)有限公司。该公司专营Futaba的全线产品,包括VFD真空荧光显示管和RC无线遥控设备等。这一举措标志着Futaba在全球化布局上迈出了重要一步,也为公司在中国市场的快速发展奠定了基础。北京分公司的成立不仅加强了Futaba与中国客户的联系,还促进了公司在技术、产品和市场等方面的全方位合作。

ACCRETECH公司的发展小趣事

自1983年Futaba的VFD产品被福特汽车公司采用后,其在美国三大汽车厂的市场占有率迅速达到100%。这一成就不仅证明了Futaba VFD产品在汽车行业的卓越性能和广泛应用,还推动了其在全球汽车市场上的快速扩张。VFD的抗震性能、良好的温差适应性以及高可靠性,使其在汽车仪表盘和抬头显示器等关键部件中扮演了重要角色。随着新能源汽车的兴起,Futaba的VFD技术也进一步适应市场需求,为新能源汽车提供了更加先进的显示解决方案。

CAROLCABLE公司的发展小趣事

CAROLCABLE公司的创立,标志着电子线缆行业迎来了一位新的竞争者。在电子科技飞速发展的时代背景下,创始人凭借对线缆技术的深刻理解和市场需求的敏锐洞察,决定创立CAROLCABLE公司。公司初期,面临着资金短缺、技术瓶颈和市场认知度低等多重挑战。然而,创始人凭借着坚定的信念和不懈的努力,带领团队克服了一个又一个困难。他们积极研发新产品,优化生产工艺,提高产品质量,逐渐在市场上站稳了脚跟。

随着公司业务的不断拓展,CAROLCABLE开始与一些知名的电子企业建立合作关系,为其提供高质量的线缆产品。这些合作不仅为公司带来了稳定的订单和收入,也进一步提升了CAROLCABLE在行业内的知名度和影响力。

American Technical Ceramics (ATC)公司的发展小趣事

CAROLCABLE公司的创立,标志着电子线缆行业迎来了一位新的竞争者。在电子科技飞速发展的时代背景下,创始人凭借对线缆技术的深刻理解和市场需求的敏锐洞察,决定创立CAROLCABLE公司。公司初期,面临着资金短缺、技术瓶颈和市场认知度低等多重挑战。然而,创始人凭借着坚定的信念和不懈的努力,带领团队克服了一个又一个困难。他们积极研发新产品,优化生产工艺,提高产品质量,逐渐在市场上站稳了脚跟。

随着公司业务的不断拓展,CAROLCABLE开始与一些知名的电子企业建立合作关系,为其提供高质量的线缆产品。这些合作不仅为公司带来了稳定的订单和收入,也进一步提升了CAROLCABLE在行业内的知名度和影响力。

问答坊 | AI 解惑

我最近想实现s3c2440的USB device,哪位高手有经验,帮帮忙!

我最近想实现s3c2440的USB device,不知道有没有高手实现过,给点帮助,谢谢了,不是在Linux下,不带操作系统的。…

查看全部问答>

汽车电子硬件

学硬件从事汽车电子方面的工作如何,各位给点意见?…

查看全部问答>

ARM7,9学习

请高手推荐一本关于ARM体系结构讲的特别清楚的书…

查看全部问答>

DXP打印问题

DXP里要打表面层的图时图纸怎么集中啊?我打出来的老靠往上,怎么调整呢?谢谢大家的帮忙!…

查看全部问答>

ndis收发包函数的用途?

INT ReceivePacket(     IN  NDIS_HANDLE            ProtocolBindingContext,     IN  PNDIS_PACKET             ...…

查看全部问答>

关于NLED Driver

在ce6.0 nleddrvr.dll是如何生成的呢?在$CEROOT\\PUBLIC\\COMMON\\OAK\\DRIVERS\\NLEDDRVR目录生成的是nleddrvr_lib.lib。 SYSGEN_NLED = 1,SOURCE文件中 WINCETARGETFILES=dummy 就生成了?过程是怎样的呢?…

查看全部问答>

如何高效运用嵌入式ARM程序开发?

在多媒体、通信等计算复杂度高的应用中,为了满足制造费用、功耗、性能以及实时性等诸多**条件的要求,嵌入式系统程序往往需要特殊设计。这使得设计师在设计面向特定应用的嵌入式软件时,需要有一套切实可行的编程准则。而在实际程序设计中,工程师 ...…

查看全部问答>

本版主最近请到一位高人,在ST10方面有很深造诣,在此帮助

请各路英雄留下你们的问题,高人会经常过来巡视并解答问题。特此公告,敬请互相转告。谢谢!…

查看全部问答>

DMA用于通信,如何判断前次操作完成

我想用DAM做USRAT1 发送,在发送下一个数据包之前,首先应该判断上一个数据包是否发送完毕。或者一个DMA通道分时复用IIC和USART通信,需要对上次的传输是否完成进行判断。使用了下面的判断语句:while (DMA_GetFlagStatus(DMA1_FLAG ...…

查看全部问答>

AVR单片机工具软件集锦

AVR单片机工具软件集锦…

查看全部问答>