历史上的今天
返回首页

历史上的今天

今天是:2025年04月02日(星期三)

正在发生

2018年04月02日 | 为什么深度学习仍未取代传统的计算机视觉技术?

2018-04-02 来源:eefocus

深度学习只是一种计算机视觉工具,而不是包治百病的良药,不要因为流行就一味地使用它。传统的计算机视觉技术仍然可以大显身手,了解它们可以为你省去很多的时间和烦恼;并且掌握传统计算机视觉确实可以让你在深度学习方面做得更好。这是因为你可以更好地理解深度学习的内部状况,并可执行预处理步骤改善深度学习结果。

 

本文的灵感同样来自论坛中的一个常见问题:

 

深度学习已经取代了传统的计算机视觉吗?

 

或是换种说法:

 

既然深度学习看起来如此有效,是否还有必要学习传统的计算机视觉技术?

 

这个问题很好。深度学习确实给计算机视觉和人工智能领域带来了革命性的突破。许多曾经看似困难的问题,现在机器可以比解决的比人类还好。图像分类就是最好的印证。确实,如从前所述,深度学习有责任将计算机视觉纳入行业版图。

 

但深度学习仍然只是计算机视觉的一个工具,且显然不是解决所有问题的灵丹妙药。因此,本文会对此进行详细阐述。也就是说,我将说明传统的计算机视觉技术为何仍十分有用,值得我们继续学习并传授下去。

 

本文分为以下几个部分/论点:

 

深度学习需要大数据

 

深度学习有时会做过了头

 

传统计算机视觉将会提升你的深度学习水平

 

进入正文之前,我认为有必要详细解释一下什么是「传统计算机视觉」,什么是深度学习,及其革命性。

 

背景知识

在深度学习出现以前,如果你有一项诸如图像分类的工作,你会进行一步叫做「特征提取」的处理。所谓「特征」就是图像中「有趣的」、描述性的、或是提供信息的小部分。你会应用我在本文中称之为的「传统计算机视觉技术」的组合来寻找这些特征,包括边缘检测、角点检测、对象检测等等。

 

在使用这些与特征提取和图像分类相关的技术时,会从一类对象(例如:椅子、马等等)的图像中提取出尽可能多的特征,并将其视为这类对象的「定义」(称作「词袋」)。接下来你要在其它图像中搜索这些「定义」。如果在另一个图像中存在着词袋中相当一部分的特征,那么这个图像就被归为包含那个特定对象(如椅子、马等等)的分类。

 

这种图像分类的特征提取方法的难点在于你必须在每张图像中选择寻找哪些特征。随着你试图区分的类别数目开始增长,比如说超过 10 或 20,这就会变得非常麻烦甚至难以实现。你要寻找角点?边缘?还是纹理信息?不同类别的对象最好要用不同种类型的特征来描述。如果你选择使用很多的特征,你就不得不处理海量的参数,而且还需要自己来微调。

 

深度学习引入了「端到端学习」这一概念,(简而言之)让机器在每个特定类别的对象中学习寻找特征,即最具描述性、最突出的特征。换句话说,让神经网络去发现各种类型图像中的潜在模式。

 

因此,借助端到端学习,你不再需要手动决定采用哪种传统机器视觉技术来描述特征。机器为你做好了这一切。《连线》杂志如此写道:

 

举例来说,如果你想教会一个 [深度] 神经网络识别一只猫,你不必告诉它去寻找胡须、耳朵、毛或是眼睛。你只需展示给它成千上万的猫的图像,它自然会解决这一问题。如果它总是会将狐狸误认为是猫,你也不用重写代码。你只需对它继续进行训练。

 

下图描述了特征提取(使用传统计算机视觉)和端到端学习之间的这种区别:

 

 

以上就是背景介绍。现在接着讨论为什么传统计算机视觉仍然必不可少,而且学习它仍大有裨益。

 

深度学习需要大量数据

首先,深度学习需要数据,许许多多的数据。前文提到过的著名图像分类模型的训练都基于庞大的数据集。排名前三的训练数据集分别是:

 

ImageNet——150 万图像,1000 个对象分类/类别;

 

COCO——250 万图像,91 个对象分类;

 

PASCAL VOC——50 万图像,20 个对象分类。

 

但是一个训练不良的模型在你的训练数据之外很可能表现糟糕,因为机器并没有对于问题的洞察力,也就不能在没看到数据的情况下进行概括归纳。而且对你来说查看训练模型内部并进行手动调整又太过困难,因为一个深度学习模型内部拥有数以百万计的参数——每个参数在训练期间都会被调整。某种程度上说,一个深度学习模型就是一个黑箱。

 

传统的计算机视觉完全透明,允许你更好地评估判断你的解决方案是否在训练环境之外依然有效。你对问题的深入见解可以放进你的算法之中。并且如果任何地方出现故障,你也可以更轻易地弄清楚什么需要调整,在哪里调整。

 

深度学习有时做过了头

这大概是我最喜欢的支持研究传统计算机视觉技术的理由。

 

训练一个深度神经网络需要很长的时间。你需要专门的硬件(例如高性能 GPU)训练最新、最先进的图像分类模型。你想在自己还不错的笔记本上训练?去度个一周的假吧,等你回来的时候训练很可能仍未完成。

 

此外,如果你的训练模型表现不佳呢?你不得不返回原点,用不同的训练参数重做全部工作。这一过程可能会重复数百次。

 

但有时候所有这些完全没必要。因为传统计算机视觉技术可以比深度学习更有效率地解决问题,而且使用的代码更少。例如,我曾经参与的一个项目是检查每个通过传送带的罐子里是否有一个红勺子。现在你可以通过前文叙述的旷日持久的过程来训练一个深度神经网络去检测勺子,或者你也可以写一个简单的以红色为阈值的算法(将任何带有一定范围红色的像素都标记为白色,所有其它的像素标记为黑色),然后计算有多少白色的像素。简简单单,一个小时就可以搞定!

 

掌握传统的计算机视觉技术可能会为你节省大量的时间并减少不必要的烦恼。

 

传统计算机视觉会提升你的深度学习技巧

 

理解传统的计算机视觉实际上能帮你在深度学习上做得更好。

 

举例来说,计算机视觉领域最为普遍使用的神经网络是卷积神经网络。但什么是卷积?卷积事实上是一种被广泛使用的图像处理技术(比如,索贝尔边缘检测)。了解这一点可以帮助你理解神经网络内部究竟发生了什么,从而进行设计和微调以更好地解决你的问题。

 

还有一件事叫做预处理。你输入给模型的数据往往要经过这种处理,以便为接下来的训练做准备。这些预处理步骤主要是通过传统的计算机视觉技术完成的。例如,如果你没有足够的训练数据,你可以进行一个叫做数据增强的处理。数据增强是指对你训练数据集中的图像进行随机的旋转、移动、裁剪等,从而创造出「新」图像。通过执行这些计算机视觉操作,可以极大地增加你的训练数据量。

 

结论

本文阐述了为什么深度学习还没有取代传统计算机视觉技术,以及后者仍值得学习和传授。首先,本文将目光放在了深度学习往往需要大量数据才能表现良好这一问题上。有时并不具备大量数据,而传统计算机视觉在这种情况下可作为一种替代方案。第二,深度学习针对特定的任务偶尔会做过头。在这些任务中,标准的计算机视觉比起深度学习可以更为高效地解决问题,并且使用更少的代码。第三,掌握传统计算机视觉确实可以让你在深度学习方面做得更好。这是因为你可以更好地理解深度学习的内部状况,并可执行预处理步骤改善深度学习结果。

 

总而言之,深度学习只是一种计算机视觉的工具,而不是包治百病的良药。不要因为流行就一味地使用它。传统的计算机视觉技术仍然可以大显身手,了解它们可以为你省去很多的时间和烦恼。


推荐阅读

史海拾趣

辰颐电子公司的发展小趣事

在辰颐电子公司的发展历程中,品质和创新一直是其核心竞争力。公司始终坚持对产品品质的严格把控,从原材料采购到生产流程,再到售后服务,都力求做到精益求精。同时,公司还注重技术创新和研发投入,不断推出具有竞争力的新产品,满足市场不断变化的需求。这种品质与创新的双轮驱动模式,使辰颐电子在激烈的市场竞争中脱颖而出。

Dexter Research Center Inc公司的发展小趣事

在电子产品行业,品质与信誉是企业生存和发展的基石。Dexter深知这一点,从产品研发到生产制造的每一个环节,都严格把控品质。公司采用先进的生产工艺和检测设备,确保每一件产品都符合高标准的质量要求。同时,Dexter还建立了完善的客户服务体系,及时响应客户需求,提供技术支持和解决方案。这些努力使Dexter赢得了客户的信任和好评,逐渐在行业中建立了良好的口碑。

GPD Optoelectronics Corp公司的发展小趣事

作为一家有社会责任感的企业,Dexter始终关注环境保护和可持续发展问题。公司积极采用环保材料和工艺,减少生产过程中的废弃物和污染物排放。同时,Dexter还积极参与社会公益事业,为当地社区和弱势群体提供帮助和支持。这些举措不仅有助于保护环境、推动社会进步,还提升了Dexter的企业形象和品牌价值。

Chip Supply Micro Devices公司的发展小趣事

在微电子器件领域,Chip Supply Micro Devices凭借一项创新技术,成功打破了市场格局。公司研发出了一种新型低功耗芯片,不仅提高了电子设备的性能,还降低了能源消耗。这一技术突破使得Chip Supply Micro Devices迅速获得了市场的认可,产品销量激增。公司借此机会扩大生产规模,加大研发投入,进一步巩固了其在微电子器件市场的地位。

Dongguan City Niuhang Electronics Co.LTD公司的发展小趣事

Dongguan City Niuhang Electronics Co.LTD成立于2012年,当时的中国电子行业正处于快速发展期。创始人李小芹凭借对半导体技术的深刻理解和市场需求的敏锐洞察,决定专注于二极管、桥式整流器等产品的研发与封装。公司成立初期,面临着资金短缺、技术储备不足等挑战,但李小芹凭借坚定的信念和不懈的努力,带领团队攻克了一个又一个技术难关,逐步在市场上树立了良好的口碑。

南京国博公司的发展小趣事

国博电子的前身可以追溯到2000年成立的上海华信集成电路有限公司,起初专注于射频芯片的研发与生产。随着技术的积累和市场的拓展,公司逐步从单一的射频芯片企业成长为覆盖射频芯片、模块、组件的完整产业平台。这一跨越不仅体现了公司在技术上的深厚积累,也反映了其对市场需求的敏锐洞察和快速响应能力。通过不断的技术创新和产品研发,国博电子成功在无线通信、移动通信等领域占据了一席之地。

问答坊 | AI 解惑

50岁老工程师的创业梦!

  看过这篇文章的人,似乎或多或少都在被其中的文字感染着,至少我本人看了文章后感动良久。   6月5日,电子工程世界的文章:小公司的跨国芯片梦      “在中国,我们这些本土厂商像在客场,国外厂商反倒像在主场!”华视奇半导体公司 ...…

查看全部问答>

求助一个问题:windowsmobile ipl读分区的问题

ipl通过 BP_ReadData读 ramimage 分区信息 读取的时候发现必须要偏移0xc800才能读正确 比如 BP_SetDataPointer(0) 读出来的头就不对 必须要 BP_SetDataPointer(0xc800) 然后再读就正确的 这可能是什么问题呢?是FMD driver有问题 还可能是 ...…

查看全部问答>

如题:sjf2410 怎样的安装啊?

如题:sjf2410 怎样的安装啊? 我在网上下了以包里面有:sjf2410.exe                     GIVEIO\\giveio.inf            &nbs ...…

查看全部问答>

什么是位寻址功能?

本人初涉单片机,请各位指教~谢谢~ 什么是位寻址功能?字节直接寻址和位寻址功能它们有什么区别? 为什么有些可以进位寻址有些又不行呢?…

查看全部问答>

WinCE下开发电子书阅读器

在开发电子书阅读器的时候遇到个难题就是打开电子书的时候是否需要读取整个电子书文件。 如果电子书比较大,占用内存就比较多。 一般阅读器是如何操作的啊?…

查看全部问答>

在FC7上安装soclib的问题

求高手帮忙,搞了几天也没解决的FC7上安装soclib问题 在/soclib/utils/src中用make,在安装进度到了0 left后,会出现如下的错 /usr/lib/gcc/i386-redhat-linux/4.1.2/../../../li bbfd.a(archures.o): In function `bfd_default_scan\': (.text ...…

查看全部问答>

关于电压转换

需要一个28V的输入,而现在只有程控电源0~20V可调,请推荐一个能从这之中的某个电压转到28V的DC/DC模块.请告知具体型号,谢谢!…

查看全部问答>

LED照明与功率因数关系解析

  交流电流过负载时,加在该负载上的交流电压与通过该负载的交流电流产生相位差,人们便从中引出功率因数这一概念。人们生产、生活用电来自电网,电网提供频率为50Hz或60Hz的交流电。作为交流电的负载有电阻、电感、电容三种类型。   当交流 ...…

查看全部问答>

招聘以下成员,大家一起共创美好每天

我们是由在公安系统领域产品和相关通信行业有着几十年背景的公司创始人投资创立的创业型公司,技术团队依靠通信领域有着十几年经验的研发团队组成,市场团队由在公安系统和通信行业有着十多年市场开拓团队组成。现在公司有着充足的资金支持、广阔的 ...…

查看全部问答>