历史上的今天
返回首页

历史上的今天

今天是:2024年12月28日(星期六)

2018年12月28日 | 干掉高速摄像头!神经网络生成极慢视频,突破人类肉眼极限

2018-12-28 来源:新智元

英伟达团队CVPR-18论文Super SloMo使用深度学习,能将任意视频变为“高清慢速播放”模式,从此不再错过任何细节。今天有人开源了PyTorch实现,赶紧来试试吧!

总有那么一些细节,你瞪大双眼拼了命想看清却依然奈不了何,比如下面这个:

跟得上球吗?要看清男子羽毛球比赛的细节实在不容易

有时候想盯住飞来飞去的羽毛球,非常吃力,这就是人类肉眼的极限。

你或许会说,好解决啊,用慢速回放功能就行了。

确实可以回放,但慢速回放的前提,是摄像机一开始就捕捉到了这些细节。如今,一些大型体育赛事已经用上了工业高速摄像头,为的就是在裁判的裁决引发争议时,可以用慢镜头回放来判定结果。

但是,没有专业的高速摄像头怎么办?

像我们用智能手机拍的视频,记录下生活中很多美好,随风飘逝的晚霞,又或者池塘溅起的涟漪,还有孩子们在泳池里泼水嬉戏,如果都能够放慢了观看,必将带来全新的感受。

正因如此,当今年计算机视觉顶会CVPR举行时,英伟达团队的一篇能让手机拍摄的视频也“高清慢速播放”的论文,在业界引发了很大的反响。

这项被称为Super SloMo的工作,使用深度神经网络,对视频中缺失的帧进行预测并补全,从而生成连续慢速回放的效果。

更赞的是,他们提出的方法,能够排除原视频帧当中被遮挡的像素,从而避免在生成的内插中间帧里产生模糊的伪像(artifact)。

值得一提,这篇论文的第一作者,是本硕毕业于西安交通大学、现在马萨诸塞大学阿默斯特分校读博四的Huaizu Jiang。第二作者Deqing Sun是英伟达学习与感知研究小组的高级研究员,本科毕业于哈工大,硕士读的港中文,在布朗大学取得博士学位后,在哈佛 Hanspeter Pfister 教授的视觉研究小组做过博士后。

感受一下Super-SloMo生成的“慢速回放”效果:

注意,左右两边都是Super SloMo生成的视频。左边是原始慢速视频,右边是将这个结果再放慢4倍的效果,如果不告诉你中间的细节(帧)是神经网络生成的,你会不会把它们当做真的慢速回放?来源:Huaizu Jiang个人主页

实际用手机拍摄的画面是这样的,对比后,意识到Super SloMo补充多少细节了吗?

论文作者称,他们能将30FPS(画面每秒帧数)的视频变为480FPS,也即每秒帧数增加了16倍。

根据Super SloMo项目主页,作者表示,使用他们未经优化的PyTorch代码,在单个NVIDIA GTX 1080Ti 和 Tesla V100 GPU上,生成7个分辨率为1280*720的中间帧,分别只需要0.97秒和0.79秒。(补充说明:从标准序列30-fps生成240-fps视频,一般需要在两个连续帧内插入7个中间帧。)

效果当然称得上惊艳。然而,令很多人失望的是,论文发布时并没有将代码和数据集公开,尽管作者表示可以联系 Huaizu Jiang 获取部分原始资料。

仅在论文中提到的数据和示例。来源:Super SloMo论文

今天,有人在 Github 上开源了他对 Super-SloMo 的 PyTorch 实现。这位ID为atplwl的Reddit用户,在作者提供的adobe24fps数据集上预训练的模型(下图中pretrained mine),实现了与论文描述相差无几的结果。

现在,这个预训练模型,还有相关的代码、数据集,以及实现条件,都能在GitHub上查到。

自称新手的atplwl表示,他目前在努力完善这个GitHub库,接下来预计添加一个PyThon脚本,将视频转换为更高的fps视频,欢迎大家提供建议。


推荐阅读

史海拾趣

Gore公司的发展小趣事
通过改进控制算法,如采用中点电位平衡控制策略,实时监测并调整中点电位,使其保持在合理范围内。
BREL International Components公司的发展小趣事

随着环保意识的日益增强,BREL International Components公司积极响应绿色发展的号召。公司投入大量资源研发环保型电子元件,采用环保材料和节能技术,降低产品对环境的影响。同时,BREL还加强废弃电子元件的回收和处理工作,推动电子行业的可持续发展。这种环保理念不仅提升了BREL的企业形象,也为公司的未来发展奠定了坚实的基础。

请注意,这些故事是基于虚构的,旨在展示电子行业常见的发展路径和策略,而非针对具体公司的描述。如果您需要关于特定公司的故事或信息,建议您直接查阅该公司的官方网站或相关新闻报道。

EMMICRO公司的发展小趣事

作为一家具有社会责任感的企业,EMMICRO公司始终关注环保和社会公益事业。公司积极参与环保活动和公益捐赠,推动企业的可持续发展和社会进步。同时,公司还积极承担对员工的培训和发展责任,为员工提供良好的职业发展平台和福利待遇。这种对社会责任的担当也赢得了社会的广泛赞誉和尊重。

Apx-Crystal公司的发展小趣事

随着全球化进程的加速推进,Apx-Crystal公司意识到拓展国际市场的重要性。公司制定了详细的国际化战略,通过参加国际展览、设立海外分支机构、与当地企业建立战略合作关系等方式,积极开拓海外市场。凭借优质的产品和服务,Apx-Crystal逐渐赢得了国际客户的信任和认可,产品远销欧美、亚太等多个地区,实现了从国内市场向国际市场的跨越式发展。

AMOTECH(阿莫泰克)公司的发展小趣事

进入21世纪,AMOTECH继续深耕电子领域,特别是在压敏电阻技术上取得了重大突破。2003年,公司的压敏电阻产品被产业资源部评为世界一流产品,这一成就不仅提升了AMOTECH在全球电子行业中的地位,也为其后续发展奠定了坚实基础。同年,公司还成功在韩国安全商协会自动报价首次公开募股,为公司的进一步扩张提供了资金支持。

European Crystal Org公司的发展小趣事

ECO始终将产品质量视为公司发展的生命线。公司建立了严格的质量管理体系,对生产过程中的每一个环节进行严格把关。此外,ECO还注重品牌形象的塑造,通过广告宣传、客户案例分享等方式提升品牌知名度和美誉度。这些努力使ECO在行业内树立了良好的口碑,吸引了越来越多的优质客户。

问答坊 | AI 解惑

初探笔记本电脑电源管理

通过使用电池实现在任何地方的移动使用是笔记本电脑区别于台式机的一个重要特征,相比起手机和PDA的耗电量,笔记本电脑的电池是很“可怜”的,要负担大尺寸的TFT,高速的硬盘,高主频的CPU和越来越大的内存,因此电池使用时间和PDA或者手机是不能相 ...…

查看全部问答>

基音调整的语音分析方法

文 摘 提出了一种新的以基音周期为基础的分析方法。对语音信号,首先估计基音轨迹,即基音随时间的变化规律。然后根据这一轨迹对语音信号进行“基音调整”,将原始的、具有时变基音周期的信号转化为一个具有恒定基音周期的信号。这样就可以采用时 ...…

查看全部问答>

nandflash问题,高手指点。

我用cypress的68033做了一块板子,控制nandflash实现一个u盘。 在用三星kf1g08u0a型号的flash时,功能正常,可以读写,格式化。 当换成另一型号的kf1g08u0b的flash时就不行了,不能格式化,可以看到盘符。 不知道什么原因,flash在固件里需要配 ...…

查看全部问答>

EVC安装问题

我第一次安装后有点小问题,然后我将它御载了,然后装了一个VS2005中文版,然后在装EVC,竟然发现注册码过不了,最后我重装了一次系统,还是注册码过不了,请大家给个建议,急等!!出现的提示如下:…

查看全部问答>

刚忘记给分了,还是zbuf的问题,求助

前几天,在跑程序的时候遇到一个zbuf的异常,vxworks打印的调用链如下: data storage Exception current instruction address: 0x0050cb60 Machine Status Register: 0x00029230 Data Exception Address Register: 0x0069bf38 Condition ...…

查看全部问答>

请问谁做过gpio的开发

    是这样的 ,有个读写器有gpio接口,它是10个接口, 另外我想用这个东西来控制三色报警灯(三个颜色,另外可以报警)。 请问这个东西如何接线,来控制我灯的四个状态。      gpio有四个输入口和四个输出口,我 ...…

查看全部问答>

[极度困惑]模拟键盘输入

本人写了一段代码,能把数据往当前焦点处输入:   INPUT  Input;   for(    i=0  ;  strInfo!=\'\\0\'  ;  i++  )//strInfo已经付值   ...…

查看全部问答>

STM32能不能超频啊

                                 我把主频超到128M还是跑的挺欢的呢…

查看全部问答>

求MXD2020E资料和用法

本帖最后由 paulhyde 于 2014-9-15 08:59 编辑 MXD2020E输出X,Y怎样判断他的角度变化  …

查看全部问答>

exiao的Beaglebone外围电路设计决赛—试用周计划

还没使用过Beaglebone,可能在使用过程中会出现各种问题,希望各位高手能多多指点。 我的周计划如下: …

查看全部问答>