历史上的今天
返回首页

历史上的今天

今天是:2025年07月09日(星期三)

正在发生

2018年07月09日 | AI还能这么玩儿?过滤音质让音乐更悦耳

2018-07-09 来源:eefocus

一般利用均衡器可以将音乐中的低音部分调出来,但是麻省理工学院的计算机科学和人工智能实验室(Computer Science and Artificial Intelligence Lab,CSAIL)的研究人员发现了更好的解决方案。他们所研发的新系统 PixelPlayer,能够利用人工智能来区分和过滤声音,让音乐听起来更洪亮或更柔和。

 

将指定视频录入经过充分训练的 PixelPlayer,系统随机能够过滤伴奏,同时识别音源,接着计算图像中每个像素的音量,然后通过“空间定位”确定产生相似音波的片段。

 

今年9月,德国慕尼黑即将举行欧洲计算机视觉会议(European Conference on Computer Vision),会议中要发表的一篇新论文则详细论述了“像素的声音(The Sound of Pixels)”。麻省理工学院计算机科学和人工智能实验室的博士生,同时也是这篇论文的合著者 Zhao Hang 同学表示,“最好的情况就是,我们能识别出哪种乐器发出怎样的声音。”

 

PixelPlayer 的核心是一种基于乐器组合多模态训练的神经网络,数据集采用了 Youtube 上 714 条未经修剪且未经标记的视频。其中,总时长为 60 小时的 500 条视频用于训练,剩余的则用于验证和测试。在训练过程中,研究人员分别根据原声吉他、大提琴、单簧管、长笛和其他乐器向系统馈入了算法。

 

这只是 PixelPlayer 多重机器学习框架的一个部分。经过训练后的视频分析算法将从剪辑帧中提取出视觉特征,这就是系统的第二个神经网络,即音频分析网络。音频分析网络将声音拆分为片段,并从中提取特征。最后,音频合成网络将把上述两个网络输出的特定像素和声波关联起来。

 

PixelPlayer 进行完全自监督的学习,人们无需对数据注释,而且系统目前已经能识别 20 种乐器。Zhao Hang 说,较大的数据集增强了系统的识别量,但识别乐器子类的能力却不佳。系统也可以识别音乐元素,例如小提琴的谐波频率。

 

研究人员认为 PixelPlayer 可以进行声音剪辑,或者帮助机器人理解动物、车辆和其他物体所制造的环境声音。他们写到,“我们希望我们的工作能够开辟新的研究途径,从视觉和听觉信号角度实现声源分离”。


推荐阅读

史海拾趣

Gould Ami公司的发展小趣事
通过水位传感器(如浮球开关、压力传感器等)实时监测水位变化。
FutureWafer公司的发展小趣事
通过水位传感器(如浮球开关、压力传感器等)实时监测水位变化。
Belden Wire and Cable公司的发展小趣事

1902年,Joseph C. Belden在美国伊利诺伊州芝加哥创立了Belden公司。在创立初期,公司主要生产电线和电缆产品,并逐渐在行业内崭露头角。1905年,经过大量的实验和研究,Belden公司成功研发出“Beldenamel”绝缘材料,这种灵活的搪瓷绝缘材料极大地提升了线缆的性能和可靠性,为公司的早期发展奠定了坚实的基础。

BAE Systems公司的发展小趣事

随着全球化的加速,BAE Systems公司积极寻求跨国合作与拓展机会。公司与多家国际知名企业建立了紧密的合作关系,共同开展研发项目和市场拓展。这些合作不仅帮助公司获取了更多的技术和市场资源,也提升了公司在全球电子行业的地位和影响力。通过跨国合作,BAE Systems公司的产品和服务逐渐进入全球市场,为公司的持续发展注入了新的活力。

富之光(Fujicon)公司的发展小趣事

富致科技的研发团队最早可以追溯到1997年,当时一群在电子、材料、化工领域拥有深厚背景的专家聚集在一起,共同探索高分子正温度系数PPTC技术的可能性。随着技术的不断成熟,他们于1999年12月正式成立了富致科技股份有限公司,将研发成果转化为实际产品,并迅速在台湾新北市五股工业园区建立了生产基地。这一初期的技术积累和团队组建,为富致科技后续的发展奠定了坚实的基础。

Free2Move公司的发展小趣事

随着全球化进程的加速,富致科技也积极实施国际化战略。公司不仅在欧洲、北美等地设立了销售和服务网络,还通过参加国际展会、建立海外研发中心等方式,不断提升品牌影响力和市场竞争力。同时,富致科技还注重与全球顶尖企业和研究机构的合作,共同推动PPTC技术的创新与发展。

问答坊 | AI 解惑

让你少奋斗10年的工作经验(1)

每个人都有一个舒适区域,在这个区域内是很自我的,不愿意被打扰,不愿意被push,不愿意和陌生的面孔交谈,不愿意被人指责,不愿意按照规定的时限做事,不愿意主动的去关心别人,不愿意去思考别人还有什么没有想到。这在学生时代是很容易被理解的 ...…

查看全部问答>

好人帮忙

有哪位哥们有DM9000AE网卡驱动的C源码,能否给小弟我提供一份? 我的板子是SMDK2410:ARM4,WINCE4.2自带的SMDK2410:ARM4 的BSP里没有这种型号的网卡驱动 兄弟我急啊!!!! 小弟我先叩谢了。…

查看全部问答>

请教:如何得知板子上网卡的mac地址?

我用别人做好的一个板子,需要知道上面网卡的mac地址。这个地址最初是怎么决定的?由出厂芯片还是做硬件的人制定的(好像说要根据时序烧录进去)?可以根据芯片查到么?如果是做硬件的人制定,而他当时就没有烧mac地址进去,是不是网卡就不能用? ...…

查看全部问答>

2412下mmc卡片驱动问题,急~~~~~

我在2412下写了个sd/mmc的driver,遇到以下问题: 有些mmc卡在初始化时,cmd1, cmd2能过,但cmd3总是timeout,不知为什么,请大家帮帮忙,看看怎么调整一下! 注:有些mmc卡是能初始化成功的,只是有些不行,但这些读卡器都能认出来。…

查看全部问答>

求助:ATTINY13休眠电流很大,降不下来

我用ATTINY13做手电筒的控制电路,由于用的是电池,必须把休眠电流控制在很小的范围内。可是上电测试发现在掉电模式下,休眠电流很大,达到了1.2mA,有什么办法降下来啊?掉电模式下,我能关的的都关了,电流还是降不下来,后来把外围电路全部撤掉 ...…

查看全部问答>

FPGA FIR滤波器仿真

在matlab FDATOOL里面设计一个15阶FIR滤波器,对系数进行量化 得到FIR滤波器系数,使用verilog进行实现   如何在modelsim里面进行仿真 O(∩_∩)O谢谢…

查看全部问答>

通讯问题

请问高手,ST7单片机如何发送数据?C语言写发送数据程序如何写?谢谢!…

查看全部问答>

求助,stm8烧录校验出错???

下载 (109.3 KB) 2010-8-25 14:05 烧录时会出现flash地址校验出错,是什么原因,需要怎么解决(程序中有存储数据到那个出错的地址)? 程序的问题还是芯片的问题?…

查看全部问答>

由flash模拟作EEPROM联想到的问题!!!!

各位大虾,本人刚刚接触STM32,有以下问题不明白,望大虾们指教!         看网上说STM32的嵌入式闪存即flash可以模拟做EEPROM,现在问题来了,   程序代码不是存在flash里面嘛,如果flash又模拟做 ...…

查看全部问答>

avr学习资料

avr单片机从入门到精通…

查看全部问答>