历史上的今天
返回首页

历史上的今天

今天是:2024年08月24日(星期六)

2020年08月24日 | 人机交互的未来 搜狗联合清华天工研究院推出ChoreoNet模型

2020-08-24 来源:脑极体

声音与行为搭配在一起,会发生怎样的化学反应呢?这一话题,正在成为国内外AI研究比较热衷的新方向。

比如卡内基·梅隆大学和CMU机器人研究所,就在研究声音和机器人动作之间的相互作用;国内则从数字人入手,搜狗分身技术团队联合清华大学天工智能计算研究院贾珈老师团队,率先展开了驱动身体动作的研究。

近日二者共同发表的数字人技术论文《ChoreoNet: 基于舞蹈动作单元的音乐-舞蹈框架》,就被2020国际顶级盛会ACM Mulmedia录用为长文。

作为领域诺贝尔奖——图灵奖的评选机构,ACM(国际计算机学会Association for Computing Machinery)的业界地位不用赘述,旗下的ACM Multimedia也被认为是多媒体技术领域奥运级别的顶级盛会,论文接受率很低。

那么,能得到顶会的认可,这一新技术究竟有哪些开创性呢?

闻声起舞,“乐舞合成”是怎样实现的?

让数字人根据文本语义做出相对应的面部表情及肢体动作,目前已经有不少成熟的应用,比如AI合成主播。如果再能够跟随音频做出同步、自然的肢体反应,无疑会在多种场景中产生奇妙的化学反应。

不过,随声而动这件事的难度在于,背后需要解决的技术问题不少,比如:

传统音乐与舞蹈合成的方式是基线法,通过人体骨骼关键点的映射,但许多关键点难以捕捉和预测,就会出现高度冗余和噪声,导致合成结果的不稳定、动作节衔接不像真人。

后来,雅尔塔等学者也提出要通过AI的弱监督学习来解决上述问题,但由于缺乏对人类舞蹈经验知识的了解,依然会出现合成不够自然、情感表达不够流畅的问题。

另外,由于音乐片段比较长,背后伴随着成千上万的动作画面,需要智能体记住并映射这种超长的序列也是一大挑战。

搜狗及清华天工院研究团队所做的突破,就是将人类专业知识融入算法,提出了一个模仿人类舞蹈编排的程序ChoreoNet,来根据音乐生成动态优美连贯、非线性高度拟真的舞蹈。

简单来说,ChoreoNet是将专业舞者的各个动作单元与音乐旋律捕捉并数据化,然后让AI在其中寻找规律,知道在怎样的音乐节拍、旋律风格中应该做出怎样的舞蹈动作,进而形成连贯的动作轨迹。

其中,研究人员共突破了两个环节:

1.舞蹈知识化。用动作捕捉采集专业的人类舞者是如何根据音乐的节奏、旋律来编排动作的。研究人员收集了4种不同类型(恰恰、华尔兹、伦巴和探戈)的舞蹈数据,数个音乐节拍裁剪出一个编舞动作单元(CAUs) 相对应的片段,形成一个动作控制单元(CA),形成一个音乐与动作的映射序列。

2.之前采集的舞蹈动作只是人体骨骼关键点数据,怎样让它们之间的连续过渡更加自然呢?研究人员借助NLP语义理解,让AI可以根据积累的知识进行实时反应。利用GAN设计了一个运动生成模型,让AI可以绘制一些舞蹈动作,补上缺失的数据,从而实现舞蹈的平滑过渡,产生自然的效果。

实验结果证明,与基线法相比,ChoreoNet性能更好,可以生成持续时间较长的结构化控件,来生成与音乐匹配的动作,并使其自然连接、情感流畅。

在这一突破中,搜狗对音频驱动身体动作这一课题的敏锐感知,以及AI分身技术在身体动作及姿态生成方面的加成,无疑是领先技术能力与创新意识的绝佳组合。

持续领跑,搜狗与分身技术的不解之缘

可以看到,ChoreoNet的出现,既带来了人机交互能力的提升,也给融入了知识元素。这可以看做是搜狗“分身技术”的一次进阶,也侧面印证了搜狗以“自然交互+知识计算”为核心的AI技术版图,正在持续狂奔,也得以积蓄起不断引领技术方向的势能。

从2018年首创分身技术之后,搜狗的研发脚步从未停止,持续专注于如何以文本及音频更好驱动数字人的面部表情及唇动进行研究。相继在2D/3D数字人领域构建了音画同步、逼真的面部表情唇动生成及驱动能力。

如何能够让数字人更加自然并且富有表现力也是搜狗分身的重点研究方向,其中身体动作以及姿态的表达至关重要。在对数字人的面部驱动达到较高标准后,搜狗将研究重点从面部为主的驱动转到面部+动作的驱动,重点攻关如何让肢体动作更具自然表现力。如在今年5月推出的3D AI合成主播身上,不仅有经得起高清镜头考验的面部表现,同时实现了以文本语义为驱动的自如行走。

如今,ChoreoNet更进一步,实现了以音频对AI数字人进行实时驱动。搜狗在业内率先尝试并取得突破性研发结果的这一举动,更是一改只能由文本、语义驱动AI分身面部+动作的现状,为行业带来了更多的创新可能,搜狗的分身技术理想与实力也跃然纸上。

不断打造可视化、能自然交互的AI数字人,搜狗到底想做什么?

人机交互的未来,与搜狗的技术远景

回归到企业战略层面,搜狗的AI理念是让AI赋能于人。通过人机协作,把人从重复性工作中解放出来,更好地解放社会生产力。比如AI主播,就可以让主持人不再困于朗读既定内容,可以投身于更具创造性的工作。当然,这一切都要从更自然的人机交互开始,完成一次次交流与触碰。

而此次ChoreoNet让数字人跟随音乐起舞,这个创意的突破不仅仅是技术上够炫酷,应用空间也非常巨大。

不出意外,搜狗很大可能会将该技术同3D数字人相结合,因为相较2D数字人,3D数字人的肢体灵活性、可塑性驱动更强,从而有更广泛的应用空间。音频驱动技术的加入,不仅能丰富搜狗3D数字人在新闻播报、外景采访的场景,更直接有助于突破融媒体领域、向娱乐、影视等领域落地进军。可以看到,基于视觉的人机交互会越来越成为主流,比如当前流行的智能客服、虚拟偶像等等,往往需要大量文本、语义的输入来进行推理与交互,虚拟偶像的动作也需要捕捉后由人工逐帧进行制作,而改为音频驱动可以更为直接地实现语音交流,节省制作/计算的步骤与成本。

此外,人类知识体系与机器学习的结合,让AI能力有极大的提升。通过垂直领域的知识数据进行训练和学习,从而提供更精准、可靠的服务,大大提升AI客服的接受度。

当然,音频驱动也可以生成更具人性化的个人秘书,帮助人减轻工作负担、提高效率的同时,通过音频识别与判断来实时反应,表现力更加丰富,让智能家居、服务机器人等更好地融入生活环境,在老人关怀、私人助理、儿童陪伴等等场景之中,扮演更积极的角色。

业内有个共识,一般情况下只有对日常生活和技术突破具有巨大影响潜力的研究项目,才会被ACM Multimedia通过和录取。从这个角度看,搜狗与清华天工院所做的工作,远远不只是学术上的突破那么简单。当全球科技巨头都在探索如何用多模态交互缔造新玩法、新功能的时候,搜狗已经向前迈出了让人眼前一亮的步伐。

让数字人更像人,就能更早地与人类达成亲密无间的配合与协作,对于人类和AI来说,同样重要。也正由于此,世界顶级盛会才会投注认可与鼓励。下一次,搜狗会为数字人集齐怎样的能力呢?我们拭目以待。

推荐阅读

史海拾趣

Greatbatch-Sierra Inc公司的发展小趣事

机顶盒,全称为数字视频变换盒,是连接电视机与外部信号源的重要设备,其专业性与科普性并重。从广义上讲,机顶盒泛指一切与电视机连接的网络终端设备,能够接收并转换多种信号源,包括有线电缆、卫星天线、宽带网络及地面广播等,为观众提供丰富多样的视听体验。

在数字电视时代,机顶盒扮演了至关重要的角色。它不仅能够接收并解码高清乃至4K超高清的数字电视信号,将其转换为电视机可识别的视频和音频流,还具备网络交互功能,使用户能够享受在线购物、观看网络视频、玩游戏等多元化服务。此外,机顶盒还提供了电子节目指南、因特网网页浏览等增值服务,极大地丰富了用户的娱乐生活。

从技术分类上看,机顶盒可分为多种类型,如DVB-S(数字卫星机顶盒)、DVB-T(数字地面机顶盒)、DVB-C(有线电视数字机顶盒)以及IPTV机顶盒等。每种类型在信号接收和解码方面各有特点,但共同之处在于它们都是连接电视机与外部世界的桥梁,为用户带来更加便捷、丰富的视听享受。

随着智能电视的快速发展,机顶盒的形态也在不断变化。一些智能电视已经内置了机顶盒的功能,实现了电视机与机顶盒的一体化。然而,机顶盒作为独立的设备,在灵活性、扩展性等方面仍具有独特的优势,将继续在数字电视领域发挥重要作用。

Easy Braid公司的发展小趣事

Easy Braid的发展离不开一支强大的研发团队。公司注重人才的引进和培养,为研发团队提供了良好的工作环境和充足的研发资金。在研发团队的努力下,Easy Braid不断推出具有创新性和实用性的新产品,满足了市场的多样化需求。同时,研发团队还积极参与行业标准的制定和推广工作,为整个电子行业的发展做出了贡献。

Diotec Electronics Corp公司的发展小趣事

面对全球化的市场趋势,Diotec开始实施全球化战略。公司加强与国际市场的联系,积极开拓海外市场。同时,Diotec还加强与全球合作伙伴的合作,共同推动电子行业的发展。展望未来,Diotec将继续坚持技术创新和品质至上的理念,致力于成为全球领先的电子元器件供应商。同时,公司还将关注新兴市场和技术趋势,为未来的发展做好充分准备。

广东奥科公司的发展小趣事

随着企业规模的扩大和影响力的提升,广东奥科公司开始积极承担社会责任,推动可持续发展。公司注重环保和节能技术的应用,致力于生产环保型电子产品,减少生产过程中的能源消耗和环境污染。同时,广东奥科公司还积极参与社会公益事业,为社会的发展贡献自己的力量。这些举措不仅提升了公司的社会形象,也为公司的可持续发展奠定了坚实的基础。

这些故事展示了广东奥科公司在电子行业中的发展历程和取得的成就,也体现了公司不断创新、追求卓越的精神。未来,广东奥科公司将继续秉持这一精神,为电子行业的发展贡献更多的力量。

EXCELSEMI [ EXCEL SEMICONDUCTOR INC. ]公司的发展小趣事

EXCELSEMI公司深知技术创新对于企业发展的重要性。因此,公司始终保持对研发的重视和投入。公司不仅设立了专门的研发中心,还引进了一批高素质的研发人才。通过持续的研发投入和技术创新,EXCELSEMI在半导体领域取得了多项专利和技术成果,为公司的发展提供了源源不断的动力。

DELTA公司的发展小趣事

随着人们生活水平的提高和环保意识的增强,Delta公司提出了“智能绿生活”战略,致力于为个人、家庭和企业带来更环保健康的生活型态。在这一战略指导下,Delta推出了一系列视讯显像系统、网络通信系统、LED照明、智能语音系统及云计算等产品。这些产品不仅具有高效、节能的特点,还为用户提供了更加便捷、智能的生活体验。

问答坊 | AI 解惑

汽车覆盖件模具CAD技术的应用与发展

一、汽车覆盖件模具CAD技术的发展现状  1.国内、外模具CAD技术的发展状况  早在60年代初期,国外一些汽车制造公司就开始了模具CAD的研究。这一研究始于汽车车身的设计,在此基础上复杂曲面的设计方法得到了发展,各大汽车公司都先后建立了自己 ...…

查看全部问答>

初学电子知识

 初学电子知识,请先把“电”当做“水”,“电路”就等于“水路”;接着了解一些常用名词术语,对照实物认识几种常用的电子元件及其功能;最后动手做一些实验。   任何电子产品都是电子元件组成的,学习电子技术就要先学电子元件。   电子元件 ...…

查看全部问答>

24位A/D芯片AD7714的使用心得

正在使用一款24位A/D芯片AD7714,做一个电子称,连接线按厂家PDF说明,基准电压2.5V。现在有个问题是:显示的数据最后一个小数点个位总是会跳动(只要显示到0.1)。硬件软件我能想到的的都试了,有哪个兄弟用过的或比较熟悉的指点下,非常感谢!!…

查看全部问答>

第12/15原创:事无巨细,IIC总线协议与AT24C02

事无巨细,IIC协议与EEPROM 24C02 在前面的一系列文章中,我们从最简单的开发环境开始到上一节的片外DAC的使用为止,算是AVR单片机中比较简单但是绝对是比较全面的内容了。如果你能够独立掌握了前面的这些内容,我们现在可以开始进入CEPARK AVR开 ...…

查看全部问答>

基于S3C2410的Windows CE驱动开发.pdf

基于S3C2410的Windows CE驱动开发.pdf…

查看全部问答>

我想学习嵌入式系统

熟练C、汇编 会java, 会单片机,略懂Dsp, 我应该在什么地方努力呢?…

查看全部问答>

请教关于MC39i的PPP连接问题

我用单片机控制MC39i发如下命令: AT+CGDCONT=1,\"IP\",\"CMNET\" OK ATD*99***1# CONNECT 进入LCP: ISP返回:LCP-Configure-Request 7E FF 7D 23 C0 21 7D 21 7D 23 7D 20 7D 39 7D 22 7D 26 7D 20 7D 2A 7D 20 7D 20 7D 27 7D 22 7D 28 7D ...…

查看全部问答>

DIY一个J-LINK仿真器吧

不知论坛能不能带领我们DIY一个J-LINK仿真器?…

查看全部问答>

MSP430的手持式仪器设计

手持式仪器是嵌入式系统应用开发的重要领域,手持式仪器具有便于携带、操作方便、LCD显示清晰等优点,设计了以MSP430F449为核心的手持式仪器。系统采用16位A/D转换器AD7705和128×64像素LCD图形显示器设计互动式图形用户界面,用于显示测量结果数 ...…

查看全部问答>

请教关于用TMS320DM642处理HDMI格式视频的问题

各位大侠,我最近想做一些高清视频处理的工作,初步选了DM642,可是不知道这个dsp的视频接口支持HDMI格式的图片或者视频吗?如果选其他型号的dsp芯片,能实现视频合成的功能吗? 我是初学者,懂的太少,请大家赐教,谢谢!…

查看全部问答>