历史上的今天
今天是:2025年07月09日(星期三)
2018年07月09日 | AI还能这么玩儿?过滤音质让音乐更悦耳
2018-07-09 来源:eefocus
一般利用均衡器可以将音乐中的低音部分调出来,但是麻省理工学院的计算机科学和人工智能实验室(Computer Science and Artificial Intelligence Lab,CSAIL)的研究人员发现了更好的解决方案。他们所研发的新系统 PixelPlayer,能够利用人工智能来区分和过滤声音,让音乐听起来更洪亮或更柔和。
将指定视频录入经过充分训练的 PixelPlayer,系统随机能够过滤伴奏,同时识别音源,接着计算图像中每个像素的音量,然后通过“空间定位”确定产生相似音波的片段。
今年9月,德国慕尼黑即将举行欧洲计算机视觉会议(European Conference on Computer Vision),会议中要发表的一篇新论文则详细论述了“像素的声音(The Sound of Pixels)”。麻省理工学院计算机科学和人工智能实验室的博士生,同时也是这篇论文的合著者 Zhao Hang 同学表示,“最好的情况就是,我们能识别出哪种乐器发出怎样的声音。”
PixelPlayer 的核心是一种基于乐器组合多模态训练的神经网络,数据集采用了 Youtube 上 714 条未经修剪且未经标记的视频。其中,总时长为 60 小时的 500 条视频用于训练,剩余的则用于验证和测试。在训练过程中,研究人员分别根据原声吉他、大提琴、单簧管、长笛和其他乐器向系统馈入了算法。
这只是 PixelPlayer 多重机器学习框架的一个部分。经过训练后的视频分析算法将从剪辑帧中提取出视觉特征,这就是系统的第二个神经网络,即音频分析网络。音频分析网络将声音拆分为片段,并从中提取特征。最后,音频合成网络将把上述两个网络输出的特定像素和声波关联起来。
PixelPlayer 进行完全自监督的学习,人们无需对数据注释,而且系统目前已经能识别 20 种乐器。Zhao Hang 说,较大的数据集增强了系统的识别量,但识别乐器子类的能力却不佳。系统也可以识别音乐元素,例如小提琴的谐波频率。
研究人员认为 PixelPlayer 可以进行声音剪辑,或者帮助机器人理解动物、车辆和其他物体所制造的环境声音。他们写到,“我们希望我们的工作能够开辟新的研究途径,从视觉和听觉信号角度实现声源分离”。
史海拾趣
|
每个人都有一个舒适区域,在这个区域内是很自我的,不愿意被打扰,不愿意被push,不愿意和陌生的面孔交谈,不愿意被人指责,不愿意按照规定的时限做事,不愿意主动的去关心别人,不愿意去思考别人还有什么没有想到。这在学生时代是很容易被理解的 ...… 查看全部问答> |
|
我用别人做好的一个板子,需要知道上面网卡的mac地址。这个地址最初是怎么决定的?由出厂芯片还是做硬件的人制定的(好像说要根据时序烧录进去)?可以根据芯片查到么?如果是做硬件的人制定,而他当时就没有烧mac地址进去,是不是网卡就不能用? ...… 查看全部问答> |
|
我在2412下写了个sd/mmc的driver,遇到以下问题: 有些mmc卡在初始化时,cmd1, cmd2能过,但cmd3总是timeout,不知为什么,请大家帮帮忙,看看怎么调整一下! 注:有些mmc卡是能初始化成功的,只是有些不行,但这些读卡器都能认出来。… 查看全部问答> |
|
我用ATTINY13做手电筒的控制电路,由于用的是电池,必须把休眠电流控制在很小的范围内。可是上电测试发现在掉电模式下,休眠电流很大,达到了1.2mA,有什么办法降下来啊?掉电模式下,我能关的的都关了,电流还是降不下来,后来把外围电路全部撤掉 ...… 查看全部问答> |
|
在matlab FDATOOL里面设计一个15阶FIR滤波器,对系数进行量化 得到FIR滤波器系数,使用verilog进行实现 如何在modelsim里面进行仿真 O(∩_∩)O谢谢… 查看全部问答> |
|
下载 (109.3 KB) 2010-8-25 14:05 烧录时会出现flash地址校验出错,是什么原因,需要怎么解决(程序中有存储数据到那个出错的地址)? 程序的问题还是芯片的问题?… 查看全部问答> |
|
各位大虾,本人刚刚接触STM32,有以下问题不明白,望大虾们指教! 看网上说STM32的嵌入式闪存即flash可以模拟做EEPROM,现在问题来了, 程序代码不是存在flash里面嘛,如果flash又模拟做 ...… 查看全部问答> |




