历史上的今天
返回首页

历史上的今天

今天是:2025年01月13日(星期一)

正在发生

2021年01月13日 | 基于带约束强化学习的高效能在线码垛机器人

2021-01-13 来源:机器之心

国防科技大学、克莱姆森大学和视比特机器人的研究人员合作使用深度强化学习求解在线装箱问题,该方法的性能表现优于现有的启发式算法。研究显示,该算法达到甚至超越了人类的在线码垛水平。团队还将训练模型部署到了工业机器人上,实现了业界首个高效能(连续码放 50 个以上随机尺寸箱子,空间利用率大于 70%)无序混合码垛机器人。

在物流仓储场景中,无序混合纸箱码垛机器人有着大量的应用需求。对于乱序到来的、多种尺寸规格的箱子,如何用机器人实现自动、高效的码垛,节省人力的同时提升物流周转效率,是物流仓储自动化的一个难点问题。其核心是求解装箱问题(Bin Packing Problem,BPP)这一经典的 NP 难题,即为每一个纸箱规划在容器中的摆放位置,以最大化容器的空间利用率。求解 BPP 问题的传统方法大多是基于启发式规则的搜索。

在实际应用场景中,机器人往往无法预先看到传送带上即将到来的所有箱子,因而无法对整个箱子序列进行全局最优规划。因而现有的 BPP 方法无法被直接用于真实物流场景。

事实上,人可以根据即将到来的几个箱子的形状尺寸,很快地做出决策,并不需要、也无法做到对整个箱子序列的全局规划。这种仅仅看到部分箱子序列的装箱问题,称为在线装箱问题(Online BPP)。物流输送线边上的箱子码垛任务一般都可以描述为 Online BPP 问题。因此,该问题的求解对于开发真正实用的智能码垛机器人有重要意义。

在 Online BPP 问题中,机器人仅能观察到即将到来的 k 个箱子的尺寸信息(即前瞻 k 个箱子),我们称其为 BPP-k 问题。对按序到来的箱子,机器人必须立即完成规划和摆放,不允许对已经摆放的箱子进行调整,同时要满足箱子避障和放置稳定性的要求,最终目标是最大化容器的空间利用率。Online BPP 问题的复杂度由箱子规格、容器大小、箱子序列的分布情况、前瞻数量等因素共同决定。由于仅知道部分箱子序列的有限信息,以往的组合优化方法难以胜任。

近日,国防科技大学、克莱姆森大学和视比特机器人的研究人员合作提出了使用深度强化学习求解这一问题。该算法性能优异,实现简单,可适用于任意多个前瞻箱子的情形,摆放空间利用率达到甚至超过人类水平。同时,该团队结合 3D 视觉技术,实现了业界首个高效能无序混合码垛机器人。论文已被人工智能顶会 AA 2021 大会接收。

方法介绍

作者使用带约束的深度强化学习求解 BPP-1 问题,即只能前瞻一个箱子的情形。然后基于蒙特卡洛树搜索实现了从 BPP-1 到 BPP-k 的拓展。下图 1 给出了 BPP-1 和 BPP-k 问题的场景示意。

图 1(上):BPP-1的场景示意,绿色箱子为前瞻箱子。

图1(下):BPP-k 问题的场景示意,绿色箱子为前瞻箱子。

基于带约束强化学习的 BPP-1 求解

强化学习是一种通过自我演绎并从经验中学习执行策略的算法,很适合求解 Online BPP 这种基于动态变化观察的序列决策问题。同时,堆箱子过程的模拟仿真非常「廉价」,因而强化学习算法可以在模拟环境中大量执行,并从经验中学习码垛策略。

然而,将强化学习算法应用到 Online BPP 上面临几个方面的挑战:首先,如果将水平放置面划分成均匀网格,BPP 的动作空间会非常大,而样本效率低下的强化学习算法并不擅长应对大动作空间的问题;此外,如何让强化学习算法更加鲁棒、高效地学习箱子放置过程中的物理约束(如碰撞避免、稳定支持等),也是需要专门设计的。

为了提升算法的学习效率,同时保证码放的物理可行性和稳定性,作者在 Actor-Cric 框架基础上引入了一种「预测 - 投影」的动作监督机制(图 2)。该方法在学习 Actor 的策略网络和 Critic 的 Q 值(未来奖励的期望)网络之外,还让智能体「预测」当前状态下的可行动作空间(可行掩码,feasibility mask)。在训练过程中,依据预测得到的可行掩码将探索动作「投影」到可行动作空间内,再进行动作采样。这样的有监督可行性预测方法,一方面可以让强化学习算法快速学习到物理约束,另一方面也尽可能避免了训练中箱子放置到不可行位置而提前终止序列,从而显著提升训练效率。

图 2:基于「预测 - 投影」的动作监督机制实现带约束的深度强化学习。

基于蒙特卡洛树搜索的 BPP-k 扩展

图 3:本文算法的空间利用率与前瞻箱子个数正相关。

如果算法能够在码放当前箱子的同时考虑之后到来的箱子尺寸,可能会得到更好的码放效果(如图 3 所示)。对于前瞻 k(k》1)个箱子的情况,一种方法是直接学习前瞻多个箱子的码放策略。但是,这种策略往往难以在任意前瞻箱子数目上很好地泛化。针对不同的 k 单独训练一种策略显然是不够聪明的做法。

对此,本文的处理方法是基于 BPP-1 这一基础策略,通过排序树搜索的方法拓展到 BPP-k 的情况。事实上,前瞻多个箱子的基本思想,就是在摆放当前箱子时,为后续箱子「预留」合适的空间,以使得这些箱子的整体摆放空间利用率更高。「预留」暗含了对于 k 个前瞻箱子的不同排序。因此,我们只需要搜索 k 个前瞻箱子的不同排序(图 4),找出一种空间利用率最高的排序,该序列所对应的当前箱子的摆放位置,即为当前箱子的最佳摆放位置。这样的处理方式,等同于在当前箱子的摆放过程中考虑了后来的箱子。不过,需要注意的是,在这些虚拟的摆放序列中,实际顺序中先到的箱子不能摆在后到的上面。

图 4:箱子的真实顺序(左上)和虚拟重排顺序(左下,实际顺序靠前的箱子不能放在实际顺序靠后箱子的上面),右边展示了不同序列的排序树。

显然,考虑所有的排序可能很快带来组合爆炸问题。为此,作者使用蒙特卡洛树搜索(MCTS)来减小搜索空间。作者基于 critic 网络输出的 Q 值,对从当前状态之后可能得到的奖励进行估计。在排序树搜索过程中,优先选择可能得到更高奖励的节点进行展开。这样可将搜索复杂度控制在线性级别。

此外,作者还介绍了处理箱子水平旋转和多容器码放的扩展情况。如果码放过程中允许箱子水平旋转,则只需将 BPP-1 模型中的动作空间和可行掩码同时复制,分别处理两种朝向。针对多容器码放,算法需要对箱子放入每个容器所带来的 Q 值变化进行量化:作者使用 critic 网络对箱子码放到某个容器前后的 Q 值进行评估,每次都将箱子放入 Q 值下降最小的容器内。

实验结果

在 BPP-1 上,作者将本文方法和其他启发式算法进行了对比(图 5)。在三种不同数据集上,基于深度强化学习算法的性能显著优于人为设计启发式规则(尤其是面向 Online BPP 的)。

图 5:深度强化学习算法和启发式算法在 BPP-1 问题上的性能(摆放箱子数目和空间利用率)对比。

同样在 BPP-1 问题上,作者针对不同的约束项进行了消融实验(图 6):MP - 可行掩码预测;MC - 可行掩码投影;FE - 动作熵(多样性)最大化。实验结果表明,在训练过程中加入可行动作约束对训练效果有显著提升。

图 6:本文算法在 BPP-1 问题上的消融实验

作者在 BPP-k 上验证了排序树搜索可以使空间利用率随着前瞻数量 k 的提升而提升(图 7b),而使用蒙特卡洛树搜索可以在不明响性能的前提下,显著降低排序树搜索的时间开销(图 7a)。此外,作者针对 BPP-1 进行了用户研究,比较本文 BPP-1 算法和人摆放的空间利用率。如图 7c 所示,本文方法超越了人类摆放的性能:在总共 1851 个高难度随机箱子序列中,人类获胜的次数是 406 次,平均性能表现是 52.1%,而强化学习获胜的次数是 1339 次,平均性能表现是 68.9%。

图 7 (a):穷举排序数搜索和 MCTS 算法的时间开销对比;(b):穷举排序数搜索和 MCTS 算法的时间开销对比;(c):本文算法、启发式算法 BPH 和人类用户的码放性能对比。

对于不同的前瞻箱子数,本文方法和启发式算法 BPH 的性能对比情况如图 8 所示。尽管 BPH 算法允许对前瞻箱子的顺序进行任意调整而本文方法不允许,但本文方法仍然能取得更好的性能。

图 8:在三个数据集上的 BPP-k 任务中,深度强化学习算法与启发式算法的性能对比。

为验证本文算法的有效性,作者团队将模型部署到工业机器人上,实现了一个智能码垛机器人(图 9,查看完整)。将仿真环境训练的策略应用到真实环境,涉及从虚拟到真实环境的策略迁移(Sim2Real)问题。为此,作者基于「Real2Sim」的思路,采用 3D 视觉算法,实时检测容器上箱子的真实摆放情况,并转换为与虚拟世界对应的理想 box 表示,作为强化学习模型的输入。对于乱序到来的随机尺寸箱子,该机器人能够连续、稳定、快速码放数十个箱子,容器空间利用率达到 70% 以上,性能远超现有同类型机器人。

图9: 基于深度强化学习的高效能无序混合码垛机器人。
编辑:hfy

推荐阅读

史海拾趣

BESTECH公司的发展小趣事

由于“BESTECH”并非一个我所熟知的特定电子行业公司,因此我无法提供关于该公司具体发展故事的详细信息。此外,每个公司的发展都涉及到许多复杂的事件和因素,包括市场变化、技术革新、竞争态势、管理决策等,因此,撰写五个关于该公司发展的故事将需要详尽的研究和深入了解。

不过,我可以为您提供一个电子行业公司可能经历的一般性发展故事的框架,您可以根据这个框架来进一步了解或研究“BESTECH”或其他电子行业公司的发展历程。

电子行业公司一般性发展故事框架

  1. 创业初期与技术创新
    • 描述公司创始人的背景和对电子行业的热情。
    • 讲述公司如何从一个创业想法开始,通过技术创新解决某个行业痛点或满足市场需求。
    • 强调早期产品的独特性和市场接受度。
  2. 市场扩张与品牌建设
    • 描述公司如何逐渐扩大市场份额,可能包括进入新的地域市场或拓展产品线。
    • 讲述公司在品牌建设方面的努力和成果,如参加行业展会、获得奖项等。
    • 分析公司在市场竞争中的优势和策略。
  3. 技术升级与研发投入
    • 强调公司如何紧跟行业技术发展趋势,不断升级产品和技术。
    • 描述公司在研发方面的投入和取得的成果,如专利申请、新产品发布等。
    • 分析技术升级对公司市场竞争力的影响。
  4. 合作与战略联盟
    • 讲述公司如何与其他企业、研究机构或高校建立合作关系,共同推进技术创新和市场拓展。
    • 分析这些合作对公司发展的战略意义和价值。
    • 描述合作带来的具体成果和效益。
  5. 企业文化与社会责任
    • 强调公司在企业文化建设方面的努力和特色,如员工培训、激励机制等。
    • 讲述公司如何履行社会责任,如环保措施、公益活动等。
    • 分析企业文化和社会责任对公司长远发展的重要性。

请注意,这只是一个框架性的描述,具体的故事内容需要根据“BESTECH”或其他电子行业公司的实际情况来填充。如果您对“BESTECH”有特定的了解或需求,建议您查阅相关资料、公司年报或行业报告,以获取更准确和详细的信息。

台湾君耀(Brightking)公司的发展小趣事

君耀(Brightking)公司于1996年在台湾新竹高科技园区创立,初期专注于防雷元器件的研发和生产。凭借对技术的深入研究和市场需求的敏锐洞察,君耀逐步在台湾的电子器件市场上占得一席之地。随着产品质量和技术含量的提升,君耀的产品开始受到国内外客户的青睐,销售网络逐渐拓展至全球。

Forge Europa Ltd公司的发展小趣事

在快速发展的过程中,Forge Europa Ltd公司始终注重品牌与文化的塑造。公司秉承“创新、品质、服务”的企业精神,致力于为客户提供优质的产品和服务。同时,公司还注重员工的培养和发展,建立了完善的培训体系和激励机制,激发了员工的创造力和工作热情。通过这些努力,Forge Europa不仅塑造了一个具有行业影响力的品牌形象,还形成了独特的企业文化,为企业的长远发展奠定了坚实的基础。

Cal Test Electronics公司的发展小趣事

随着公司的发展,Cal Test Electronics逐渐与B&K Precision建立了紧密的合作关系。作为姊妹公司,双方在技术研发、产品制造和市场推广等方面展开了深度合作。这种共生关系不仅为Cal Test Electronics带来了更多的资源和支持,也使其在电子配件和测试产品领域的影响力逐渐扩大。通过共享技术和市场资源,双方共同推动了行业的发展。

FCT Electronics公司的发展小趣事

近年来,智能制造成为电子行业的新趋势。FCT Electronics紧跟时代步伐,开始探索智能制造领域。公司引进了先进的自动化生产线和检测设备,提高了生产效率和产品质量。同时,FCT Electronics还积极开发智能测试系统,为客户提供更加便捷、高效的服务。这一转型不仅提升了公司的市场竞争力,也为未来的发展打开了新的空间。

上述五个故事,仅基于公开信息和电子行业的一般发展趋势构建,并非FCT Electronics公司的真实历史事件。如需了解FCT Electronics公司的真实发展情况,请查阅相关官方资料。

CHERRY公司的发展小趣事

90年代初,薄膜键盘凭借其低廉的价格和轻便的特性迅速占据了市场主导地位,机械键盘一度被边缘化。然而,Cherry并未放弃机械键盘业务,而是不断进行技术创新和产品升级。随着电竞行业的兴起和消费者对高品质输入设备的需求不断增加,机械键盘市场逐渐复苏。Cherry凭借其深厚的技术积累和品牌优势,成功抓住了这一市场机遇,实现了机械键盘业务的复兴。

问答坊 | AI 解惑

发一个<<DSP易学通>>书籍所带源码

发一个书籍所带源码,供学习者参考!…

查看全部问答>

LED应用基础知识

replyreload += \',\' + 371180;LED应用基础知识   LED 是取自 Light Emitting Diode 三个字的缩写,中文译为“发光二极管”,顾名思义发光二极管是一种可以将电能转化为光能具有二极管的特性的电子器件。一、LED的种类依据产品的用 ...…

查看全部问答>

Altera将举办系列免费技术巡展,不容错过啊 ~~

Altera公司宣布其将与代理商联手合作在2010年8月至9月期间在中国大陆9个城市举办免费的技术研讨会。很好的机会,不容错过哦在研讨会上可以了解到Altera系列产品是在高端数字系统设计上的应用。还将展示Altera解决方案如何推动视频和图像处理设计实 ...…

查看全部问答>

有谁divxdec.ax组建??

请问:在WINCE里能否用divxdec.ax组建,如果可以那么该怎么在WINCE里注册???谢谢~~…

查看全部问答>

使用STM32关于电压基准的选择问题?

                                 使用100脚的STM32封装,本来使用REF2930做电压基准,近来拿来报价明细一看,原来REF2930一直要二十多块,价格过高 ...…

查看全部问答>

【聊聊DSP】对DSP如何学习将会影响到你将来的收入

    谈谈我对DSP的了解和学习         可能大家认为这题目怎么不一样?呵呵只是为了让大家更仔细认真的看完我发的帖子,大家提出你的想法,一起讨论。        首先:要感谢TI公司 ...…

查看全部问答>

软件开发经典书籍推荐(一)---软件开发的科学与艺术

本帖最后由 tiankai001 于 2015-2-27 17:20 编辑 你在自己的学习工作中,能不能跟和你意见不一致的人一起工作,能不能保持一种宽容的心态。因为人与人的思维方式是不一样的,你在你的工作中肯定会遇到与你意见不一致的人,这一点是毫 ...…

查看全部问答>

话说PC电源设计的透过表面看本质(转)

把透过表面看本质这个话题放在电源行业中,可能会令很多网友不解。如果电源通过表面就可以判断的话,那么还要专业的评测干什么呢?当然这里说看到的本质肯定是无法与专业的测试仪器相比,但是在大多数情况下,我们要是想快速判断一款产品的特点及优 ...…

查看全部问答>

开关电源中mos管驱动问题

本人新手,想参加电赛的电源类试题,在准备开关电源这一块的时候,一直不懂单片机输出pwm波,然后pwm波控制mos管的占空比过程是怎么实现的。网上找到的都是一笔带过,找不到相关的电路图或者详细的分析过程,这个地方一直就变成了我的盲区,希望论 ...…

查看全部问答>

【TI物联网设计大赛】基于WIFI的远程做饭机器人

本帖最后由 qwqwqw2088 于 2015-8-14 17:43 编辑 基于WIFI的远程做饭机器人 …

查看全部问答>